特徵縮放 feature scaling

特徵縮放的一些方法

feature scaling (資料規範化) 是資料探勘或機器學習常用到的步驟，這個步驟有時對演算法的效率和準確率都會產生巨大的影響。

對精度的影響

這個步驟的必要性要依賴於資料特徵的特性，如果有》=2特徵，並且不同特徵間的值變化範圍差異大，那就很有必要使用feature scaling。比如說，在信用卡欺詐檢測中，如果我們只使用使用者的收入作為學習特徵，那就沒有必要做這個步驟。但是如果我們同時使用使用者的收入和使用者年齡兩個特徵的話，在建模之前採用這個步驟就很有可能能提高檢測精度，這是因為使用者收入這個特徵的取值範圍可能為[50000,60000]甚至更大，但使用者年齡只可能是[20,100]左右，這時候，假如說我用k最近鄰的方法去做檢測的話，使用者收入這個特徵的相似度對檢測結果的影響將會大大大於使用者年齡的作用，然而事實上，這兩個特徵對欺詐檢測可能有著同等的重要性。因此，假如我們在檢測實施前，對著兩個特徵進行規範化，那我們的檢測方法中就能真正地同等對待它們。

將資料的特徵縮放到[0,1]或[-1,1]之間。縮放到什麼範圍取決於資料的性質。對於這種方法的公式如下：

是最初的特徵值， x′

是縮放後的值。

xi' = (xi - a) / b

2）其中a可以為特徵xi的均值，b則可以為xi的最大值、（最大值 - 最小值）、標準差等。

標準化(standardization)

特徵標準化使每個特徵的值有零均值(zero-mean)和單位方差(unit-variance)。這個方法在機器學習地演算法中被廣泛地使用。例如：svm，邏輯回歸和神經網路。這個方法的公式如下：

兩種歸一化方法的適用場景

特徵縮放 feature scaling

特徵縮放（Feature Scaling）

優達筆記特徵縮放

Udacity 機器學習入門特徵縮放

特徵縮放 feature scaling

特徵縮放（Feature Scaling）

優達筆記 特徵縮放

Udacity 機器學習入門 特徵縮放

相關推薦

優達筆記特徵縮放

Udacity 機器學習入門特徵縮放