機器學習統一特徵取值範圍

特徵縮放(feature scaling)是預處理階段的關鍵步驟，但常常被遺忘。雖然存在決策樹和隨機森林這種是少數不需要特徵縮放的機器學習演算法，但對於大部分機器學習演算法和優化演算法來說，如果特徵都在同一範圍內，會獲得更好的結果。比如梯度下降法。

特徵縮放的重要性可以通過乙個簡單的示例解釋。假設我們有兩個特徵，乙個特徵的取值範圍是[1,10],另乙個特徵的取值範圍是[1,100000]。我們使用adaline中的平方誤差函式，很明顯，權重更新時會主要根據第二維度特徵，這就使得在權重更新過程中第乙個特徵的話語權很小。另乙個例子是如果knn演算法用歐氏距離作為距離度量，第二維度特徵也佔據了主要的話語權。

有兩種方法能使不同的特徵有相同的取值範圍：歸一化(normalization)和標準化(standardization)。兩種方法還是有必要區分一下的。

1. 歸一化指的是將特徵範圍縮放到[0,1]，是最小-最大縮放(min-max scaling)的特例。為了得到歸一化結果，我們對每乙個特徵應用最小-最大縮放，計算公式如下：

其中，xno

rmx_xn

orm

是x

ix^i

xi歸一化後的結果，xmi

nx_xmin

是對應的列特徵最小值，xma

xx_xmax

則是最大值。

sklearn中實現了最小-最大縮放，呼叫minmaxscaler類即可：

2. 標準化：

雖然歸一化方法簡單，但相對來說，標準化對於大部分機器學習演算法更實用。原因是大部分線性模型比如邏輯斯蒂回歸和線性svm在初始化權重引數時，要麼選擇0要麼選擇乙個接近0的隨機數。

使用標準化，我們能將特徵值縮放到以0為中心，標準差為1，換句話說，標準化後的特徵形式服從正態分佈，這樣學習權重引數更容易。此外，標準化後的資料保持了異常值中的有用資訊，使得演算法對異常值不太敏感，這一點歸一化就無法保證。

標準化的計算公式如下：

此時，u

xu_x

ux是訓練集對應特徵列的平均值，σ

x\sigma_x

σx是對應特徵列的標準差。

下面一張表使用乙個簡單的例子，展示了標準化和歸一化的區別：

sklearn中提供了standardscalar類實現列標準化：

強調，standardscaler只使用訓練集fit一次，這樣保證訓練集和測試集使用相同的標準進行的特徵縮放。

機器學習統一特徵取值範圍

機器學習特徵工程（一）

機器學習特徵提取（一）

機器學習特徵工程特徵篩選

機器學習 統一特徵取值範圍

機器學習 特徵工程（一）

機器學習 特徵提取（一）

機器學習 特徵工程 特徵篩選

相關推薦

機器學習統一特徵取值範圍

機器學習特徵工程（一）

機器學習特徵提取（一）

機器學習特徵工程特徵篩選