歸一化輸入向量

1）加快梯度下降求解速度

如下圖所示，藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵x1和x2的區間相差非常大，x1區間是[0,2000]，x2區間是[1,5]，其所形成的等高線非常尖。當使用梯度下降法尋求最優解時，很有可能走「之字型」路線（垂直等高線走），從而導致需要迭代很多次才能收斂；

而右圖對兩個原始特徵進行了歸一化，其對應的等高線顯得很圓，在梯度下降進行求解時能較快的收斂。

因此如果機器學習模型使用梯度下降法求最優解時，歸一化往往非常有必要，否則很難收斂甚至不能收斂。

2）歸一化提高精度

對於一些依賴於樣本距離的應用來說，比如knn，通過求解與樣本之間的距離來進行分類。這時候如果樣本過大，那麼它將占有主導作用，可能會影響分類的結果。

2.歸一化的型別

這種歸一化方法比較適用在數值比較集中的情況。這種方法有個缺陷，如果max和min不穩定，很容易使得歸一化結果不穩定，使得後續使用效果也不穩定。實際使用中可以用經驗常量值來替代max和min。

經過處理的資料符合標準正態分佈，即均值為0，標準差為1，其轉化函式為：

其中μ為所有樣本資料的均值，σ為所有樣本資料的標準差。

經常用在資料分化比較大的場景，有些數值很大，有些很小。通過一些數學函式，將原始值進行對映。該方法包括 log、指數，正切等。需要根據資料分布的情況，決定非線性函式的曲線，比如log(v, 2)還是log(v, 10)等。

posted on 2018-05-05 19:40收藏