特徵工程 特徵歸一化

2021-09-11 22:39:41 字數 1004 閱讀 7119

為了消除資料特徵之間的量綱影響,需要對特徵進行歸一化(normalization)處理,使得不同特徵處於同乙個數量級,具有可比性

2.1、線性函式歸一化(min-max scaling)

對原始資料進行線性變換,使結果對映到 [0,1] 的範圍內,實現對原始資料的等比縮放。

歸一化公式:

其中,x為原始資料,min和max分別代表資料的最大最小值

2.2、零均值歸一化(z-score normalization)

他會將原始數值對映到均值為0,標準差1的分布上。假設原始特徵的均值為μ,標準差為?,那麼歸一化公式為:

z=(x-μ)/?

注:

*1 均值計算公式:

*2 標準差計算公式:

我們不妨借助隨即梯度下降的例項來說明歸一化的重要性。

假設有兩種數值型特徵,x1的取值範圍為[0, 10],x2的取值範圍為[0, 3],於是可以構造乙個目標函式符合圖1.1(a)中的等值圖。在學習速率相同的情況下,x1的更新速度會大於x2,需要較多的迭代才能找到最優解。如果將x1和x2歸一化到相同的數值區間後,優化目標的等值圖會變成圖1.1(b)中的圓形,x1和x2的更新速度變得更為一致,容易更快地通過梯度下降找到最優解。

當然,歸一化並不是萬能的,實際操作過程中,需要梯度下降的模型通常是需要歸一化的,包括線性回歸,邏輯回歸,支援向量機,神經網路等模型。但對於決策樹模型並不適用 ,決策數在進行節點**時主要依據資料集d關於特徵x的資訊增益比,二資訊增益比跟特徵是否進行了歸一化是無關的,因為歸一化並不會改變樣本在x上的資訊增益

特徵工程之特徵歸一化

百面機器學習 為了消除資料特徵之間的量綱影響,使得不同指標之間具有可比性。在實際應用中,通過梯度下降法求解的模型通常是需要歸一化的。但對於決策樹模型並不適用。對原始資料進行線性變換,使結果對映到 0,1 實現對原始資料的等比縮放。公式如下 x no rm x xmi nxma x xm in x f...

特徵歸一化

我們在衡量一些事物時,我們總是不能同等程度的看待各個特徵,無法對這個事物做出準確的衡量,即我們沒有將各個特徵量化到統一的區間。為了解決這樣的問題,我們引出了特徵歸一化 目錄 特徵歸一化的概念 特徵歸一化必要性 資料標準化的意義 資料標準化的方法 資料的標準化 normalization 是將資料按比...

特徵歸一化優點

資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上。1 提公升收斂...