特徵歸一化優點

2021-09-30 01:27:42 字數 1106 閱讀 7013

資料的標準化(normalization)是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權其中最典型的就是資料的歸一化處理,即將資料統一對映到[0,1]區間上。

(1)提公升收斂速度對於線性model來說,資料歸一化後,最優解的尋優過程明顯會變得平緩,更容易正確的收斂到最優解.

資料歸一化對梯度下降收斂速度產生的影響:

比較這兩個圖,左圖對其進行優化時,會得到乙個窄長的橢圓形,導致在梯度下降時,梯度的方向為垂直等高線的方向而走之字形路線,這樣會使迭代很慢,相比之下,右圖的迭代就會很快(理解:也就是步長走多走少方向總是對的,不會走偏)。(2)提公升模型的精度歸一化的另一好處是提高精度。

這在涉及到一些距離計算的演算法時效果顯著,比如演算法要計算歐氏距離,上圖中x2的取值範圍比較小,涉及到距離計算時其對結果的影響遠比x1帶來的小,所以這就會造成精度的損失。所以歸一化很有必要,他可以讓各個特徵對結果做出的貢獻相同。在多指標評價體系中,由於各評價指標的性質不同,通常具有不同的量綱和數量級。當各指標間的水平相差很大時,如果直接用原始指標值進行分析,就會突出數值較高的指標在綜合分析中的作用,相對削弱數值水平較低指標的作用。因此,為了保證結果的可靠性,需要對原始指標資料進行標準化處理。在資料分析之前,我們通常需要先將資料標準化(normalization),利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標資料性質,使所有指針對測評方案的作用力同趨化,再加總才能得出正確結果。資料無量綱化處理主要解決資料的可比性。經過上述標準化處理,原始資料均轉換為無量綱化指標測評值,即各指標值都處於同乙個數量級別上,可以進行綜合測評分析。

(3)深度學習中資料歸一化可以防止模型梯度**。

總結:資料歸一化不是萬能的,在實際應用中,通過梯度下降法求解的模型通常是需要資料歸一化的,包括線性回歸、邏輯回歸、持向量機(svm)、神經網路等模型。

但是決策樹模型並不適用歸一化

特徵歸一化

我們在衡量一些事物時,我們總是不能同等程度的看待各個特徵,無法對這個事物做出準確的衡量,即我們沒有將各個特徵量化到統一的區間。為了解決這樣的問題,我們引出了特徵歸一化 目錄 特徵歸一化的概念 特徵歸一化必要性 資料標準化的意義 資料標準化的方法 資料的標準化 normalization 是將資料按比...

特徵工程 特徵歸一化

為了消除資料特徵之間的量綱影響,需要對特徵進行歸一化 normalization 處理,使得不同特徵處於同乙個數量級,具有可比性 2.1 線性函式歸一化 min max scaling 對原始資料進行線性變換,使結果對映到 0,1 的範圍內,實現對原始資料的等比縮放。歸一化公式 其中,x為原始資料,...

特徵工程之特徵歸一化

百面機器學習 為了消除資料特徵之間的量綱影響,使得不同指標之間具有可比性。在實際應用中,通過梯度下降法求解的模型通常是需要歸一化的。但對於決策樹模型並不適用。對原始資料進行線性變換,使結果對映到 0,1 實現對原始資料的等比縮放。公式如下 x no rm x xmi nxma x xm in x f...