機器學習筆記為什麼要對資料進行歸一化處理？

**：

在餵給機器學習模型的資料中，對資料要進行歸一化的處理。

為什麼要進行歸一化處理，下面從尋找最優解這個角度給出自己的看法。

假定為**房價的例子，自變數為面積，房間數兩個，因變數為房價。

那麼可以得到的公式為：

其中其中

首先我們祭出兩張圖代表資料是否均一化的最優解尋解過程。

未歸一化：

歸一化之後

為什麼會出現上述兩個圖，並且它們分別代表什麼意思。

我們在尋找最優解的過程也就是在使得損失函式值最小的theta1,theta2。

上述兩幅圖**的是損失函式的等高線。

我們很容易看出，當資料沒有歸一化的時候，面積數的範圍可以從0~1000，房間數的範圍一般為0~10，可以看出面積數的取值範圍遠大於房間數。

這樣造成的影響就是在畫損失函式的時候，

資料沒有歸一化的表示式，可以為：

造成影象的等高線為類似橢圓形狀，最優解的尋優過程就是像下圖所示：

而資料歸一化之後，損失函式的表示式可以表示為：

其中變數的前面係數幾乎一樣，則影象的等高線為類似圓形形狀，最優解的尋優過程像下圖所示：

從上可以看出，資料歸一化後，最優解的尋優過程明顯會變得平緩，更容易正確的收斂到最優解。

這也是資料為什麼要歸一化的乙個原因。

機器學習中為什麼需要對資料進行歸一化？

如下圖所示，藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵x1和x2的區間相差非常大，x1區間是 0,2000 x2區間是 1,5 其所形成的等高線非常尖。當使用梯度下降法尋求最優解時，很有可能走之字型路線垂直等高線走從而導致需要迭代很多次才能收斂而右圖對兩個原始特徵進行了歸一化，...

為什麼一些機器學習模型需要對資料進行歸一化？

針對這個問題參考了wiki的解釋歸一化後有兩個好處 1 歸一化後加快了梯度下降求最優解的速度 2 歸一化有可能提高精度 1 歸一化為什麼能提高梯度下降法求解最優解的速度？如下圖所示，藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵x1和x2的區間相差非常大，x1區間是 0,2000 x2區間...

為什麼一些機器學習模型需要對資料進行歸一化？

本文機器學習模型被網際網路行業廣泛應用，如排序參見排序學習實踐推薦反作弊定位參見基於樸素貝葉斯的定位演算法等。一般做機器學習應用的時候大部分時間是花費在特徵處理上，其中很關鍵的一步就是對特徵資料進行歸一化，為什麼要歸一化呢？很多同學並未搞清楚，維基百科給出的解釋 1 歸一化後加快了...

機器學習筆記 為什麼要對資料進行歸一化處理？

機器學習中為什麼需要對資料進行歸一化？

為什麼一些機器學習模型需要對資料進行歸一化？

為什麼一些機器學習模型需要對資料進行歸一化？

相關推薦

機器學習筆記為什麼要對資料進行歸一化處理？