歸一化和標準化的作用

2020-04-21 21:52:11

問題描述：為什麼需要對數值型別的特徵做歸一化。

問題求解：

為了消除資料特徵之間的量綱影響，我們需要對特徵進行歸一化處理，使得不同指標之間具有可比性。

舉例來說，比如分析乙個人的身高，體重對健康的影響，乙個人的身高範圍在1m~2m之間，乙個人的體重範圍在50kg~100kg之間，如果不做歸一化處理，那麼必然範圍更大的體重對結果的影響會更加明顯。為了得到更精準的結果，需要對數值進行歸一化，使得各個指標的資料在同一數量級，方便比較分析。

對數值型別的特徵做歸一化可以將所有的特徵都統一到乙個大致相同的數值區間內。最常用的方法主要有以下兩種。

它對原始資料進行線性變換，使結果對映到[0, 1]的範圍，實現對原始資料的等比縮放。歸一化公式如下：

xnorm = (x - xmin) / (xmax - xmin)

它會將原始資料對映到均值為 0、標準差為1的分布上。具體來說，假設原始特徵的均值為μ、標準差為σ，那麼歸一化公式定義為：

z = (x - u) / v

另外，對資料做歸一化還有利於梯度下降時模型的收斂。

假設有兩種數值型特徵，x1的取值範圍為 [0, 10]，x2的取值範圍為[0, 3]，於是可以構造乙個目標函式符合圖(a)中的等值圖。在學習速率相同的情況下，x1的更新速度會大於x2，需要較多的迭代才能找到最優解。如果將x1和x2歸一化到相同的數值區間後，優化目標的等值圖會變成圖(b)中的圓形，x1和x2的更新速度變得更為一致，容易更快地通過梯度下降找到最優解。

歸一化和標準化的作用

歸一化和標準化

標準化和歸一化

標準化和歸一化

歸一化和標準化的作用

歸一化和標準化

標準化 和 歸一化

標準化和歸一化

相關推薦

標準化和歸一化