特徵工程之特徵預處理

在前面我們分別討論了特徵工程中的特徵選擇與特徵表達，本文我們來討論特徵預處理的相關問題。主要包括特徵的歸一化和標準化，異常特徵樣本清洗與樣本資料不平衡問題的處理。

由於標準化和歸一化這兩個詞經常混用，所以本文不再區別標準化和歸一化，而通過具體的標準化和歸一化方法來區別具體的預處理操作。

z-score標準化：這是最常見的特徵預處理方式，基本所有的線性模型在擬合的時候都會做 z-score標準化。具體的方法是求出樣本特徵x的均值mean和標準差std，然後用（x-mean)/std來代替原特徵。這樣特徵就變成了均值為0，方差為1了。在sklearn中，我們可以用standardscaler來做z-score標準化。當然，如果我們是用pandas做資料預處理，可以自己在資料框裡面減去均值，再除以方差，自己做z-score標準化。

max-min標準化：也稱為離差標準化，預處理後使特徵值對映到[0,1]之間。具體的方法是求出樣本特徵x的最大值max和最小值min，然後用(x-min)/(max-min)來代替原特徵。如果我們希望將資料對映到任意乙個區間[a,b]，而不是[0,1]，那麼也很簡單。用(x-min)(b-a)/(max-min)+a來代替原特徵即可。在sklearn中，我們可以用minmaxscaler來做max-min標準化。這種方法的問題就是如果測試集或者**資料裡的特徵有小於min，或者大於max的資料，會導致max和min發生變化，需要重新計算。所以實際演算法中，除非你對特徵的取值區間有需求，否則max-min標準化沒有 z-score標準化好用。

l1/l2範數標準化：如果我們只是為了統一量綱，那麼通過l2範數整體標準化也是可以的，具

特徵工程之特徵預處理

特徵工程之特徵預處理

特徵工程之特徵預處理

特徵工程之特徵預處理

相關推薦