為什麼正則化可以防止過擬合？

加上正則化項之後的損失函式

j (w

[l],

b[l]

)=1m

∑i=1

ml(y

′,y)

+λ2m

∑l=1

l∣∣w

[l]∣

∣f2j(w^, b^)= \frac\sum_^ml(y^,y) + \frac \sum_^l||w^||^2_f

j(w[l]

,b[l

])=m

1i=

1∑m

l(y′

,y)+

2mλ

l=1∑

l∣∣

w[l]

∣∣f2

f表示frobenius範數(縮減的l2範數)，加上第二項(即正則項)懲罰了權值矩陣使其不能取太大值。

如果權重矩陣取值很小，如上圖左一，會出現線性擬合高偏差欠擬合的狀態；如果權重矩陣取值很大，則會出現過於靈活的非線性擬合高方差過擬合的狀態。

這張圖里綠色的計算部分表示了正則項對w

ww更新的影響，它相當於取了乙個(1−

αλm)

w(1-\frac)w

(1−mαλ

)w的值來按照沒有正則項時的更新方法更新w

ww，因為(1−

αλm)

(1-\frac)

(1−mαλ

)小於1，它懲罰性地降低了w的值。

因此正則化項的存在使得權重矩陣不會取值過大，就不會出現過擬合高方差，它相當於盡量把第一張圖右一的所代表的狀態盡量往第一張圖左一代表的狀態那邊拉，從而得到第一張圖中間"just right"的狀態。

另外，如果在深度網路中某些結點的w取值很小(即權重矩陣中的一部分值很小)，將會使得這些結點的作用變得微不足道，就好像根本就沒有這些單元一樣，其結果是深度網路會退化成越來越接近單純的logistic regression。

事實上，殘差網路就是使用降低權重值對結果的影響來減小網路加深對訓練準確度降低而產生的影響，所以w取低值雖然不好，但是可以作為設計網路的一種思路。

有關範數請參考之前的一篇博文: [矩陣/向量的範數](

從另乙個方面來理解

如果你使用的啟用函式是tan

(h)tan(h)

tan(h)

，那麼當λ

\lambda

λ取值很大的時候，w取值很小，經w計算得出的z也很小，z很小意味著g(z

)=ta

n(z)

g(z) = tan(z)

g(z)=t

an(z

)很小，g(z

)g(z)

g(z)

取值集中於上圖紅色部分，相當於tan

(h)tan(h)

tan(h)

函式的線性部分，整個網路的狀態接近第一張圖左一的線性高偏差欠擬合狀態。

這樣一來，你的深度網路將只能計算出跟線性擬合差不了太遠的結果，將會得到很接近線性函式的函式，而不是過於複雜的函式，所以也就不太可能出現過擬合的情況。

你最好加上正則化項，因為如果你不加上，在繪製損失函式j

jj的圖時，可能不是很明顯的像梯度那樣的逐漸下降，你會在本週的程式設計作業裡體會到這點。

為什麼正則化可以防止過擬合？

為什麼正則化有利於預防過擬合呢？為什麼它可以減少方差問題？我們通過兩個例子來直觀體會一下。左圖是高偏差，右圖是高方差，中間是just right，這幾張圖我們在前面課程中看到過。直觀上理解就是如果正則化引數設定得足夠大，權重矩陣被設定為接近於0的值，直觀理解就是把多隱藏單元的權重設為0，於是基本上消...

丟棄法為什麼可以防止過擬合

丟棄法為什麼和weight decay l2 norm 一樣也能達到防止過擬合的效果。什麼是丟棄法當我們對該隱藏層使丟棄法時，該層的隱藏單元將有定概率被丟棄掉。設丟棄概率為p，那麼有p 的概率hi 會被清零，有1 p 的概率hi 會除以1 p 做拉伸。丟棄概率是丟棄法的超引數。h1,h2,h...

正則化防止過擬合

在之前的線性回歸就有提到正則化，下面就來更具體地介紹正則化。1.正則化的作用當訓練資料比較少時，或模型訓練過度時，常常會導致過擬合。正則化主要作用就是通過減小模型的複雜度來防止過擬合，提高泛化能力。為了更好的了解過擬合以及為後面做鋪墊，還是先看乙個吳恩達機器學習系列課程中乙個線性回歸來房價的例子...

為什麼正則化可以防止過擬合？

為什麼正則化可以防止過擬合？

丟棄法為什麼可以防止過擬合

正則化防止過擬合

相關推薦