機器學習基本常識標準化與歸一化

常用的方法是通過對原始資料進行線性變換把資料對映到[0,1]之間，變換函式為：

其中max為樣本資料的最大值，min為樣本資料的最小值。這種方法有個缺陷就是當有新資料加入時，可能導致max和min的變化，需要重新定義。另外，最大值與最小值非常容易受異常點影響，所以這種方法魯棒性較差，只適合傳統精確小資料場景。

常用的方法是z-score標準化，經過處理後的資料均值為0，標準差為1，處理方法是：

其中，其中μ是樣本的均值， σ是樣本的標準差，。該種歸一化方式要求原始資料的分布可以近似為高斯分布，否標準化的效果會變得很糟糕。它們可以通過現有樣本進行估計。在已有樣本足夠多的情況下比較穩定，適合現代嘈雜大資料場景。

歸一化的依據非常簡單，不同變數往往量綱不同，歸一化可以消除量綱對最終結果的影響，使不同變數具有可比性。比如兩個人體重差10kg，身高差0.02m，在衡量兩個人的差別時體重的差距會把身高的差距完全掩蓋，歸一化之後就不會有這樣的問題。

標準化的原理比較複雜，它表示的是原始值與均值之間差多少個標準差，是乙個相對值，所以也有去除量綱的功效。同時，它還帶來兩個附加的好處：均值為0，標準差為1。

均值為0有什麼好處呢？它可以使資料以0為中心左右分布（這不是廢話嘛），而資料以0為中心左右分布會帶來很多便利。比如在去中心化的資料上做svd分解等價於在原始資料上做pca；機器學習中很多函式如sigmoid、tanh、softmax等都以0為中心左右分布（不一定對稱）。

以上為兩種比較普通但是常用的歸一化技術，那這兩種歸一化的應用場景是怎麼樣的呢？什麼時候第一種方法比較好、什麼時候第二種方法比較好呢？下面做乙個簡要的分析概括：

1、在分類、聚類演算法中，需要使用距離來度量相似性的時候、或者使用pca技術進行降維的時候，第二種方法(z-score standardization)表現更好。

2、在不涉及距離度量、協方差計算、資料不符合正太分布的時候，可以使用第一種方法或其他歸一化方法。比如影象處理中，將rgb影象轉換為灰度影象後將其值限定在[0 255]的範圍。

在涉及到計算點與點之間的距離時，使用歸一化或標準化都會對最後的結果有所提公升，甚至會有質的區別。在歸一化與標準化之間應該如何選擇呢？如果把所有維度的變數一視同仁，在最後計算距離中發揮相同的作用應該選擇標準化；如果想保留原始資料中由標準差所反映的潛在權重關係應該選擇歸一化。另外，標準化更適合現代嘈雜大資料場景。

本文參考自：

機器學習基本常識 標準化與歸一化

標準化與歸一化 機器學習

歸一化與標準化

歸一化與標準化

相關推薦

機器學習基本常識標準化與歸一化

標準化與歸一化機器學習