過擬合欠擬合正則化

產生原因

緩解方法

合適的資料分布+合理的模型複雜性

合理的組合應該是：複雜的資料分布+簡單的模型或者簡單的資料分布+複雜的模型

神經網路中的過擬合

原理（或者說思考）：

從貝葉斯的角度來說，代價函式可以表示為p(y|w,x)的形式，而正則項則是對引數w做了乙個先驗分布的假設，使得代價函式變成p(y|w,x)p(w)

考慮兩個分布：0均值的高斯分布和0均值的拉普拉斯分布 l

apla

ce:1

2bex

p−|w

|bl ap

lace

:12b

exp−

|w|b

gaussia

n:12

πα‾‾

‾‾√e

xp−w

22α gau

ssia

n:12

παex

p−w2

2α代價函式的對數形式可以寫成 lo

gp(y

|w,x

)p(w

)=lo

gp(y

|w,x

)+lo

gp(w

) log

p(y|

w,x)

p(w)

=log

p(y|

w,x)

+log

p(w)

右邊第一項是原來的對數似然，第二項則可以化成la

plac

e:−1

b|w|

+乙個常

數=−λ

||w|

|1+一

個常數 lap

lace

:−1b

|w|+

乙個常數

=−λ|

|w||

1+乙個

常數gaussi

an:−

12αw

2+乙個

常數=−

λ||w

||2+

乙個常數

g au

ssia

n:−1

2αw2

+乙個常

數=−λ

||w|

|2+一

個常數因為最大化lo

gp(y

|w,x

)p(w

) log

p(y|

w,x)

p(w)

最後都會轉成最小化形式，所以代價函式最後會變成j=

⋆+λ|

|w||

p j=⋆

+λ||

w||p

的形式。

2. 對於l1而言，假設引數服從拉普拉斯分布；而對於l2而言，假設引數服從高斯分布，兩個都是0均值

3. 正則效果和原因

效果：l1範數可以使權值稀疏，方便特徵提取。

l2範數可以防止過擬合，提公升模型的泛化能力，使w趨於0（或者說約束在乙個很小的範圍內）

為什麼正則會達到這個效果呢？過擬合可以說明用了複雜的模型。複雜模型在引數上的表現可以分為：引數w全不為0，說明所有特徵都用到了即資料處於乙個複雜的特徵空間中；引數的波動範圍大，考慮極端一點的例子，某個模型把異常點也擬合進來，使得資料樣本在較小的區間值發生了很大的波動，即該區間內的導數非常大（w非常大），所以乙個好的模型的引數波動範圍不會很大。

從引數的角度來說，解決過擬合有兩種思路：引數存在部分0值（稀疏權值，l1），引數約束在很小的範圍內（接近於0，l2)

然後在實際中，w不一定服從高斯分布或者拉普拉斯分布（也有種說法是不加正則項的化w服從的是均勻分布），而正則項的引入就是要我們強行讓我們預想的w去服從高斯分布或者拉普拉斯分布。

對於高斯分布來說，其均值為0，那麼隨著懲罰項

λ λ

而言，λ λ

是和方差

α α

成反比隨著λ

變大，w都接近於0，這就是l2範數可以防止過擬合，提公升模型的泛化能力，使w趨於0的原因

而對於l1而言，有個結論：任何的規則化運算元，如果他在w_i=0的地方不可微，並且可以分解為乙個「求和」的形式，那麼這個規則化運算元就可以實現稀疏。

然後lasso的稀疏性解釋在於，我們求解w的過程實際上是計算mi

n(l+

...l

ambd

a||w

||p)

m in

(l+.

..la

mbda

||w|

|p)的形式

也就是每步迭代中計算對w求偏導，

兩種 regularization 能不能把最優的 w 變成 0，取決於原先的l在 0 點處的導數。如果本來導數不為 0，那麼施加 l2 regularization 後導數依然不為 0，最優的 x 也不會變成 0。而施加 l1 regularization 時，只要 regularization 項的係數 lambda 大於原先費用函式在 0 點處的導數的絕對值，w = 0 就會變成乙個極小值點。

w<0 時 l+

λ|w|

l +λ

|w|的導數要小於0(函式減)，同理w>0時導數》0 (函式增)

w從左邊趨近於0 時，λ|

w|λ |w

|的導數是−λ

−

λ，假設此時 l 的導數為 la ，必須有 la

−λ<

0 la−

λ<0，

λ>la

>la

，同理w從右邊趨近於0時，必須有 lb

+λ>

0 lb+

λ>0，即

λ>−l

b λ

>−l

b，即當

λ λ

大於l在0點附近的絕對值，那麼對應的w就必須為0，起到乙個稀疏的作用。

過擬合 欠擬合 正則化

什麼是欠擬合現象 過擬合 欠擬合與正則化

過擬合欠擬合

過擬合 欠擬合

相關推薦

過擬合欠擬合正則化

什麼是欠擬合現象過擬合欠擬合與正則化

過擬合欠擬合