L1 L2正則化介紹

2021-08-10 09:26:40 字數 1896 閱讀 8559

1) 正則化(regularization)對引數w的影響

【說明】:loss』代表原始的代價函式,後面那一項就是l2正則化項,它是這樣來的:所有引數w的平方的和,除以訓練集的樣本大小n。λ就是正則項係數,權衡正則項.在這裡並沒有除以樣本數量和2,是因為使用了絕對值誤差。一般情況下, los

s′=(

y−yˉ

)2+λ

2n∣∣

w∣∣2

loss^=(y-\bar)^2+\frac ^2

loss′=

(y−y

ˉ​)2

+2nλ

​∣∣w

∣∣2正則項為:λ2n

∣∣w∣

∣2\frac ^2

2nλ​∣∣

w∣∣2

,這是除以2是為了求導的時候計算方便。

2) 什麼是weight decay?和正則化有何聯絡

正則項是模型複雜度的單調遞增函式,所以weight decay的作用是調節模型複雜度對損失函式的影響,若weight decay很大,則複雜的模型損失函式的值也就大。

首先,假設我們有loss function為 e(w

)e(w)

e(w)

梯度下降演算法告訴我們,為了最小化loss function為 ,要在 e的最快速下降的方向修改權值:

w i=

wi−η

∂e∂w

iw_i=w_i- \eta \frac

wi​=wi

​−η∂

wi​∂

e​這裡 η

\eta

η為學習率,學習率越大則對應的權重 修改也越大。

為了防止過擬合,在loss function上加上正則項(懲罰項),一種簡單的方法是通過在權重上引入一零均值高斯項。

e (w

)=e(

w)+λ

∣∣w∣

∣2e(w)=e(w)+\lambda||w||^2

e(w)=e

(w)+

λ∣∣w

∣∣2這裡,λ為正則化引數。正則項是模型複雜度的單調遞增函式,所以weight decay的作用是調節模型複雜度對損失函式的影響,若weight decay很大,則複雜的模型損失函式的值也就大。

應用梯度下降演算法到這個新的cost函式,我們得到:

w i=

wi−η

∂e∂w

i−2λ

wiw_i=w_i- \eta \frac-2\lambda w_i

wi​=wi

​−η∂

wi​∂

e​−2

λwi​

這新的一項−2λ

wi-2\lambda w_i

−2λwi​

起到的就是正則化的作用,使得權重與其大小成比例衰減。因為不新增正則化之前w的係數是1,現在是(1−

2λ)(1-2\lambda)

(1−2λ)

\lambda

λ很小,所以w的係數此時小於1,更小的權值w,從某種意義上說,表示網路的複雜度更低,對資料的擬合剛剛好(這個法則也叫做奧卡姆剃刀)

【乙個完美的解釋】

過擬合的時候,擬合函式的係數往往非常大,為什麼?如下圖所示,過擬合,就是擬合函式需要顧忌每乙個點,最終形成的擬合函式波動很大。在某些很小的區間裡,函式值的變化很劇烈。這就意味著函式在某些小區間裡的導數值(絕對值)非常大,由於自變數值可大可小,所以只有係數足夠大,才能保證導數值很大。

而正則化是通過約束引數的範數使其不要太大,所以可以在一定程度上減少過擬合情況。

L1 L2損失 和 L1 L2正則化

1 l1損失 最小絕對值誤差 最小化 值 真實值 的絕對值,魯棒性強。2 l2損失 最小平方誤差 最小化 值 真實值 的平方,對於大於1的數,平方更大,因此對樣本敏感。3 l1正則化 l1正則化和l2正則化可以看做是損失函式的懲罰項,l1正則化是指權值向量中各個元素的絕對值之和。l1正則化可以產生稀...

L1,L2正則化的區別

1,l1會趨向於產生少量的特徵,而其他不重要的特徵都為0,會產生稀疏性,可以用來選擇特徵,也能一定程度上防止過擬合。而l 2會選擇更多的特徵,特徵值都趨近於0,防止過擬合。lasso在選擇特徵時非常有用,而ridge就只是規則化而已。所以在所有特徵中只有少數特徵起重要作用的情況下,選擇lasso進行...

DataAnalysis 正則化和L1 L2範數

一般而言,監督學習的目標函式是 第一項機器學習中損失函式後面經常會跟乙個l1或者l2正則函式,也稱l1 l2範數。0 l0範數 指權值向量 1 l1範數 指權值向量 注 由於l0範數很難優化求解 np難問題 和l1範數是l0範數的最優凸近似,從而一般只考慮l1而不考慮l2範數。2 l2範數 指權值向...