在機器學習中,經常需要對資料進行歸一化處理。那麼,為什麼需要進行歸一化處理呢,本文從尋找最優解這個角度解析。
例子假定為**房價的例子,自變數為面積,房間數兩個,因變數為房價。
那麼可以得到的公式為:
其中代表房間數,
代表變數
前面的係數。
其中代表面積,
代表變數
前面的係數。
首先,我們用兩張圖代表資料是否均一化的最優解尋解過程。
為歸一化:
歸一化之後:
為什麼會出現上述兩個圖,並且它們分別代表什麼意思。
我們在尋找最優解的過程也就是在尋找使得損失函式值最小的
。上述兩幅圖代表的是損失函式的等高線。
我們容易看出,當資料沒有歸一化的時候,面積數的範圍可以從0~1000,房間數的範圍一般為0~10,可以看出面積數的取值範圍遠大於房間數。
影響這樣造成的影響就是在畫損失函式的時候,由於資料沒有歸一化,
造成圖形的等高線為類似的橢圓形狀,最優解的尋找過程就是像下圖所示。
而資料歸一化後,損失函式的表示式可以表示為:
其中變數的前面係數幾乎一樣,則影象的等高線為類似圓形形狀,最優解的尋優過程如下圖所示:
從上面可以看出來,資料歸一化後,最優解的尋優過程明顯會變得平緩,更容易正確的收斂到最優解。這也是資料為什麼需要歸一化的乙個重要原因。
機器學習中,為什麼經常對資料做歸一化?
一般做機器學習應用的時候大部分時間是花費在特徵處理上,其中很關鍵的一步就是對特徵資料進行歸一化。1 歸一化為什麼能提高梯度下降法求解最優解的速度?圖代表的是兩個特徵的等高線。其中左圖兩個特徵x1和x2的區間相差非常大,x1區間是 0,2000 x2區間是 1,5 像這種有的資料那麼大,有的資料那麼小...
為什麼要資料歸一化和歸一化方法
在餵給機器學習模型的資料中,對資料要進行歸一化的處理。為什麼要進行歸一化處理,下面從尋找最優解這個角度給出自己的看法。假定為 房價的例子,自變數為面積,房間數兩個,因變數為房價。那麼可以得到的公式為 其中代表房間數,代表變數前面的係數。其中代表面積,代表變數前面的係數。首先我們祭出兩張圖代表資料是否...
為什麼要資料歸一化和歸一化方法
轉 2017年09月22日 08 59 58 wuxiaosi808 標籤 機器學習 更多 個人分類 機器學習 在餵給機器學習模型的資料中,對資料要進行歸一化的處理。為什麼要進行歸一化處理,下面從尋找最優解這個角度給出自己的看法。假定為 房價的例子,自變數為面積,房間數兩個,因變數為房價。那麼可以得...