分類模型 資料整理

2021-09-22 10:24:27 字數 1435 閱讀 5921

1- make_classification

構造虛擬資料集,主要通過n_samples,n_features, n_classes,weights來進行構建,後期可能會使用到n_redunant和n_informative等進行特徵之間相關度的分析。

x,y=datasets.make_classification(

n_samples=2000,

n_features=10,#每個樣本具有10個特徵

n_informative=4,

n_redundant=1,

n_classes=2,

n_clusters_per_class=1,#每個類別有幾個簇構成

weights=[0.1,0.9],#樣本比例

flip_y=0.1,#應該是造成誤差(引入雜訊)的意思,樣本之間標籤交換

random_state=2019

)df_all=pd.dataframe(x)

df_all["y"]=y

#對資料做pca降維

pca=pca(n_components=2)

pca.fit(x)

x_pca=pca.transform(x)

df_x=pd.dataframe(columns=["pca_a","pca_b","y"])

df_x.pca_a=x_pca[:,0]

df_x.pca_b=x_pca[:,1]

df_x.y=y

print(type(x_pca))

print(x.shape," --> ",x_pca.shape)

sns.lmplot(x="pca_a",y="pca_b",data=df_x,hue="y",fit_reg=false,markers=["o","x"],size=8,aspect=1.5,legend=true)

2- cnews

為10類中文文字資料集,在資料送入神經網路之前,需要將文字資料轉為tensor格式。可以使用onehot形式,但是矩陣大小為n_word*n_review,如果使用最長句子長度,則為n_max_len*n_review。只選取前10000的詞頻排序的詞,將句子對應的單詞轉為數字,同時n_max_length歸一化,少於該長度則做補全,多於該長度,則做截斷。使用字級別的,省去了分詞以及oov的問題。參考**沒有做stopwords的處理,依然取得了比較好的效果,後期詳細學習。

3- imdb

imdb為英文資料,資料集中最長的句子長度為2494,長度中位數為178,眾數為132,但最後選取歸一化長度為256,經測試,256高於178的acc。在構建好word_to_id之後,需要注意新增"",""。

具體**在

cnews目前**有問題,待修正。

參考:fication-cnn-rnn

待嘗試部分:

特徵選擇: 

13 資料分類模型

一 資料分類模型 資料庫的型別是根據資料模型來劃分的,而任何乙個dbms也是根據資料模型有針對性地設計出來的,這就意味著必須把資料庫組織成符合dbms規定的資料模型。目前成熟地應用在資料庫系統中的資料模型有 層次模型 網狀模型和關係模型。它們之間的根本區別在於資料之間聯絡的表示方式不同 即記錄型之間...

資料模型分類

轉 資料模型按不同的應用層次分成三種型別 分別是概念資料模型 邏輯資料模型 物理資料模型。1 概念資料模型 conceptual data model 簡稱 概念模型 主要用來描述世界的概念化結構,它使資料庫的設計人員在設計的初始階段,擺脫計算機系統及dbms的具體技術問題,集中精力分析資料以及資料...

分類模型和回歸模型

分類 概念 對於分類問題,監督學習從資料中學習乙個分類模型或者分類決策函式,稱為分類器。分類器對新的輸入 其屬於哪一類別,稱為分類。優化過程 找到最優決策面 輸出 離散值,如0 1,yes no 評價指標 一般是精確率,即給定測試資料集,分類器能正確分類的樣本數佔總樣本數的比。模型損失函式 交叉熵損...