機器學習 資料預處理

2021-09-22 22:33:34 字數 1063 閱讀 5423

均值為0,標準差為1

from sklearn import preprocessing

scaler = preprocessing.standardscaler(

)scaler.fit_transform(x)

對原始資料進行線性變換,變換到[0,1]區間(也可以是其他固定最小最大值的區間)

from sklearn import preprocessing

scaler = preprocessing.minmaxscaler(feature_range=(0

,1))

scaler.fit_transform(x)

from sklearn import preprocessing

x_normalized = preprocessing.normalize(x, norm=

'l2'

)x_normalized = preprocessing.normalize(x, norm=

'l1'

)

離散特徵值的編碼方式,類別特徵編碼

from sklearn import preprocessing

encoder = preprocessing.onehotencoder(

)encoder.fit_transform(data)

.toarray(

)

給定閾值,將特徵轉換為0/1

from sklearn import preprocessing

binarizer = preprocessing.binarizer(threshold=

1.1)

binarizer.transform(x)

from sklearn import preprocessing

le = preprocessing.labelencoder(

) le.fit_transform(data)

機器學習 資料預處理

1 連續資料特徵離散化的方法 由於lr 中模型表達能力有限,可以通過特徵離散化來提高非線性學習能力。主要方法 1 等距離散 取值範圍均勻劃分成n 等分,每份的間距相等。2 等頻離散 均勻分為n 等分,每份內包含的觀察點數相同 3 優化離散 3 1 卡方檢驗方法 統計樣本的實際觀測值與理論判斷值之間的...

機器學習python資料預處理

from pandas import read csv from sklearn.preprocessing import standardscaler from numpy import set printoptions from sklearn.preprocessing import minm...

機器學習之資料預處理

1.為什麼需要資料預處理?原始資料來自於現實場景,常常有以下幾個特徵 髒 亂 差 缺。髒體現在原始資料裡混雜許多雜訊資料,亂體現在原始資料各維度量綱不同一。差體現在資料錯誤 出現不尋常不一致,這和髒相似。缺體現在原始資料的某些資料段值的缺失。2.資料預處理的方法。歸一化 標準化和中心化是資料預處理中...