資料歸一化處理特徵歸一化

1、定義

資料的歸一化處理，即將資料統一對映到[0,1]區間上。

2、方法

1）最大最小標準化（min-max normalization）

本歸一化方法又稱為離差標準化，使結果值對映到[0 ，1]之間，轉換函式如下：

應用場景：

在不涉及距離度量、協方差計算、資料不符合正太分布的時候，可以使用第一種方法或其他歸一化方法（不包括z-score方法）。比如影象處理中，將rgb影象轉換為灰度影象後將其值限定在[0，255]的範圍。

2）z-score標準化方法

資料處理後符合標準正態分佈，即均值為0，標準差為1，其轉化函式為：

其中μ為所有樣本資料的均值，σ為所有樣本資料的標準差。

應用場景：在分類、聚類演算法中，需要使用距離來度量相似性的時候、或者使用pca技術進行降維的時候，z-score standardization表現更好。

3）非線性歸一化

本歸一化方法經常用在資料分化比較大的場景，有些數值很大，有些很小。通過一些數學函式，將原始值進行對映。

該方法包括對數，正切等，需要根據資料分布的情況，決定非線性函式的曲線：

log對數函式轉換方法:

y = log10(x)，即以10為底的對數轉換函式，對應的歸一化方法為：

x』 = log10(x) /log10(max)

其中max表示樣本資料的最大值，並且所有樣本資料均要大於等於1.

atan反正切函式轉換方法

利用反正切函式可以實現資料的歸一化，即

x』 = atan(x)*(2/pi)

使用這個方法需要注意的是如果想對映的區間為[0，1]，則資料都應該大於等於0，小於0的資料將被對映到[－1，0]區間上.

l2範數歸一化方法

l2範數歸一化就是特徵向量中每個元素均除以向量的l2範數：

3、作用

那麼我們為什麼要對資料進行歸一化呢?

舉個例子：

假定為**房價的例子，自變數為面積，房間數兩個，因變數為房價。

那麼可以得到的公式為：

我們給出兩張圖代表資料是否均一化的最優解尋解過程：

未歸一化：

歸一化之後：

我們在尋找最優解的過程也就是在使得損失函式值最小的theta1,theta2。

上述兩幅圖代表的是損失函式的等高線。

可以看出，資料歸一化後，最優解的尋優過程明顯會變得平緩，更容易正確的收斂到最優解。

4、總結

簡而言之，歸一化的目的就是使得預處理的資料被限定在一定的範圍內（比如[0,1]或者[-1,1]），從而消除奇異樣本資料導致的不良影響。

當然，如果不存在奇異樣本資料時，則可以不進行歸一化

什麼是歸一化處理特徵歸一化

1 什麼是特徵歸一化？資料的標準化 normalization 是將資料按比例縮放，使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到，去除資料的單位限制，將其轉化為無量綱的純數值，便於不同單位或量級的指標能夠進行比較和加權其中最典型的就是資料的歸一化處理，即將資料統一對映到 0,1...

python歸一化處理 python歸一化處理

一定義歸一化方法有兩種形式，一種是把數變為 0，1 之間的小數，一種是把有量綱表示式變為無量綱表示式。主要是為了資料處理方便提出來的，把資料對映到0 1範圍之內處理，更加便捷快速。二目的不同評價指標往往具有不同的量綱和量綱單位，這樣的情況會影響到資料分析的結果，為了消除指標之間的量綱影響，需...

機器學習特徵歸一化處理

對於大多數的機器學習演算法和優化演算法來說，將特徵值縮放到相同區間可以使得獲取效能更好的模型。就梯度下降演算法而言，例如有兩個不同的特徵，第乙個特徵的取值範圍為1 10，第二個特徵的取值範圍1 10000。在梯度下降演算法中，代價函式為最小平方誤差函式，所以在使用梯度下降演算法的時候，演算法會明顯的...

資料歸一化處理 特徵歸一化

什麼是歸一化處理 特徵歸一化

python歸一化處理 python歸一化處理

機器學習 特徵歸一化處理

相關推薦

資料歸一化處理特徵歸一化

什麼是歸一化處理特徵歸一化

機器學習特徵歸一化處理