標準化和歸一化

歸一化（0-1 normalization/ min-max normalization）

把數變為（0，1）之間的小數，特徵資料範圍不同歸一化後方便統一處理

這種方法有乙個缺陷就是當有新資料加入時，可能導致max和min的變化，需要重新定義

z-score 標準化(zero-mean normalization)

經過處理的資料符合標準正態分佈，z-score標準化方法適用於屬性a的最大值和最小值未知的情況，或有超出取值範圍的離群資料的情況。

該種標準化方式要求原始資料的分布可以近似為高斯分布，否則效果會變得很糟糕。

在不涉及距離度量、協方差計算、資料不符合正太分布的時候，可以使用歸一化方法。比如影象處理中，將rgb影象轉換為灰度影象後將其值限定在[0 255]的範圍。因為其協方差產生了倍數值的縮放，因此這種方式無法消除量綱對方差、協方差的影響，對pca分析影響巨大；同時，由於量綱的存在，使用不同的量綱、距離的計算結果會不同。而在第二種歸一化方式中，新的資料由於對方差進行了歸一化，這時候每個維度的量綱其實已經等價了，每個維度都服從均值為0、方差1的正態分佈，在計算距離的時候，每個維度都是去量綱化的，避免了不同量綱的選取對距離計算產生的巨大影響。

詳情可以參考：link

標準化和歸一化

歸一化和標準化

標準化和歸一化

歸一化和標準化

標準化和歸一化

歸一化和標準化

標準化 和 歸一化

歸一化和標準化

相關推薦

標準化和歸一化