機器學習資料預處理

均值為0，標準差為1

from sklearn import preprocessing
scaler = preprocessing.standardscaler(
)scaler.fit_transform(x)

對原始資料進行線性變換，變換到[0,1]區間（也可以是其他固定最小最大值的區間）

from sklearn import preprocessing
scaler = preprocessing.minmaxscaler(feature_range=(0
,1))
scaler.fit_transform(x)

from sklearn import preprocessing
x_normalized = preprocessing.normalize(x, norm=
'l2'
)x_normalized = preprocessing.normalize(x, norm=
'l1'
)

離散特徵值的編碼方式，類別特徵編碼

from sklearn import preprocessing
encoder = preprocessing.onehotencoder(
)encoder.fit_transform(data)
.toarray(
)

給定閾值，將特徵轉換為0/1

from sklearn import preprocessing
binarizer = preprocessing.binarizer(threshold=
1.1)
binarizer.transform(x)

from sklearn import preprocessing
le = preprocessing.labelencoder(
) le.fit_transform(data)

機器學習資料預處理

1 連續資料特徵離散化的方法由於lr 中模型表達能力有限，可以通過特徵離散化來提高非線性學習能力。主要方法 1 等距離散取值範圍均勻劃分成n 等分，每份的間距相等。2 等頻離散均勻分為n 等分，每份內包含的觀察點數相同 3 優化離散 3 1 卡方檢驗方法統計樣本的實際觀測值與理論判斷值之間的...

機器學習python資料預處理

from pandas import read csv from sklearn.preprocessing import standardscaler from numpy import set printoptions from sklearn.preprocessing import minm...

機器學習之資料預處理

1.為什麼需要資料預處理？原始資料來自於現實場景，常常有以下幾個特徵髒亂差缺。髒體現在原始資料裡混雜許多雜訊資料，亂體現在原始資料各維度量綱不同一。差體現在資料錯誤出現不尋常不一致，這和髒相似。缺體現在原始資料的某些資料段值的缺失。2.資料預處理的方法。歸一化標準化和中心化是資料預處理中...

機器學習 資料預處理

機器學習 資料預處理

機器學習python資料預處理

機器學習之資料預處理

相關推薦

機器學習資料預處理

機器學習資料預處理