資料預處理第5講特徵縮放

特徵縮放(feature scaling), 通常指特徵的標準化，或者叫z-score標準化，對於很多機器學習演算法來說是乙個非常重要的預處理過程。標準化後的特徵，具有標準正態分佈的屬性，即零均值、單位標準差。

很多演算法，例如svm, k-近鄰、logistic回歸，要求特徵標準化。再如主成分分析，如果乙個成分，例如人的身高，變異小於另乙個成分，例如人的體重，由於它們各自的單位(metersvs.kilos), 如果這兩個特徵沒有縮放，那麼，主成分可能確定最大方差的方向更接近體重軸。其結果是，身高改變1公尺被認為比體重改變1公斤更重要，這個結論顯然是錯誤的，而這種錯誤是由於在做主成分之前沒有對特徵縮放。

我們以uci的wine資料集為例，該資料集包含的連續特徵，由於測量的屬性各不相同，特徵範圍是混雜的(heterogeneous). 我們分別對原始資料和縮放後的資料做主成分分析和*****貝葉斯分類器。下圖的結果說明，在經過標準化之後的資料做主成分分類，**的準確性遠勝過沒有經過標準化的原始資料的分類表現。這個例子說明了特徵縮放，即，資料標準化過程，對主成分分析的重要性。

資料預處理第5講特徵縮放

資料預處理第1講標準化

第二講資料預處理

特徵工程與資料預處理

資料預處理第5講 特徵縮放

資料預處理第1講 標準化

第二講 資料預處理

特徵工程與資料預處理

相關推薦

資料預處理第5講特徵縮放

資料預處理第1講標準化

第二講資料預處理