資料歸一化處理 特徵歸一化

2021-10-12 09:41:21 字數 1579 閱讀 9163

1、定義

資料的歸一化處理,即將資料統一對映到[0,1]區間上。

2、方法

1)最大最小標準化(min-max normalization)

本歸一化方法又稱為離差標準化,使結果值對映到[0 ,1]之間,轉換函式如下:

應用場景:

在不涉及距離度量、協方差計算、資料不符合正太分布的時候,可以使用第一種方法或其他歸一化方法(不包括z-score方法)。比如影象處理中,將rgb影象轉換為灰度影象後將其值限定在[0,255]的範圍。

2)z-score標準化方法

資料處理後符合標準正態分佈,即均值為0,標準差為1,其轉化函式為:

其中μ為所有樣本資料的均值,σ為所有樣本資料的標準差。

應用場景:在分類、聚類演算法中,需要使用距離來度量相似性的時候、或者使用pca技術進行降維的時候,z-score standardization表現更好。

3)非線性歸一化

本歸一化方法經常用在資料分化比較大的場景,有些數值很大,有些很小。通過一些數學函式,將原始值進行對映。

該方法包括 對數,正切等,需要根據資料分布的情況,決定非線性函式的曲線:

log對數函式轉換方法:

y = log10(x),即以10為底的對數轉換函式,對應的歸一化方法為:

x』 = log10(x) /log10(max)

其中max表示樣本資料的最大值,並且所有樣本資料均要大於等於1.

atan反正切函式轉換方法

利用反正切函式可以實現資料的歸一化,即

x』 = atan(x)*(2/pi)

使用這個方法需要注意的是如果想對映的區間為[0,1],則資料都應該大於等於0,小於0的資料將被對映到[-1,0]區間上.

l2範數歸一化方法

l2範數歸一化就是特徵向量中每個元素均除以向量的l2範數:

3、作用

那麼我們為什麼要對資料進行歸一化呢?

舉個例子:

假定為**房價的例子,自變數為面積,房間數兩個,因變數為房價。

那麼可以得到的公式為:

我們給出兩張圖代表資料是否均一化的最優解尋解過程:

未歸一化:

歸一化之後:

我們在尋找最優解的過程也就是在使得損失函式值最小的theta1,theta2。

上述兩幅圖代表的是損失函式的等高線。

可以看出,資料歸一化後,最優解的尋優過程明顯會變得平緩,更容易正確的收斂到最優解。

4、總結

簡而言之,歸一化的目的就是使得預處理的資料被限定在一定的範圍內(比如[0,1]或者[-1,1]),從而消除奇異樣本資料導致的不良影響。

當然,如果不存在奇異樣本資料時,則可以不進行歸一化

什麼是歸一化處理 特徵歸一化

1 什麼是特徵歸一化?資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權 其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1...

python歸一化處理 python歸一化處理

一 定義 歸一化方法有兩種形式,一種是把數變為 0,1 之間的小數,一種是把有量綱表示式變為無量綱表示式。主要是為了資料處理方便提出來的,把資料對映到0 1範圍之內處理,更加便捷快速。二 目的 不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需...

機器學習 特徵歸一化處理

對於大多數的機器學習演算法和優化演算法來說,將特徵值縮放到相同區間可以使得獲取效能更好的模型。就梯度下降演算法而言,例如有兩個不同的特徵,第乙個特徵的取值範圍為1 10,第二個特徵的取值範圍1 10000。在梯度下降演算法中,代價函式為最小平方誤差函式,所以在使用梯度下降演算法的時候,演算法會明顯的...