深度學習 正則化

2021-09-25 19:45:50 字數 1006 閱讀 1841

1 為啥l1 更具有稀疏性

兩種解釋:

1 從l 1和l2 的**來看,貝葉斯學派認為僅僅使用資料是不夠的,還要加入先驗知識,l1 等於拉普拉斯先驗,l2 等於高斯先驗,為了推導和計算方便,會對分布函式取對數,然後再去優化,最後由於引數考慮了 資料先驗,學到的規則更加接近實際,

拉普拉斯密度函式的圖形和表示式:

如果對拉普拉斯密度函式取對數,剩下的是乙個一次項|x-u|,這就是l1 正規化,如果對高斯密度取對數剩下的是乙個二次項(x-u)^2 就是l2 正規化,比較兩個分部的密度函式影象可以發現當x 趨向於正無窮和負無窮時,前者是逼近0的,後者是等於0的。

2 從具體的計算求導角度來看

loss 函式與某個引數x 的關係如圖所示,最優的x 在綠點處,x 非零,現在施加l2 正則,新的loss (l+cx2) ,如圖藍線所示,最優點在黃色處,x 的絕對值減少了,但依舊非0,如果加上l1,則新的loss 函式(l+c|x|)  如粉線所示,最優的x 就變成了0,這裡利用的就是絕對值函式的尖峰,兩種正則項能不能把最優的x 變成0,取決於原先的損失函式在0 處的導數。若本來導數不為0,加上l2 後導數依然不為0,最優的x 也不會變成0,而加上l1,只要正則項的係數c 大於原先的loss 在0 處的導數的絕對值,x=0 就會變成乙個極小點。

解釋3: 對loss 加上l0/l1/l2 正規化約束都會使得很多引數接近於0,但是在接近於0 的時候約束力度會有差別,從導數的角度來看,l1 正則項在0附近的導數始終為正負1,引數更新速度不變,l2 在0 附近接近於0,引數更新緩慢,所以l1 相比於l2 更容易使引數變成0,也就是更稀疏。

2 l2 的本質

深度學習 正則化

了解什麼是過擬合問題,以下面為例,我們能夠看到有兩個類別,藍色是分類曲線模型。模型過擬合是因為模型過於複雜,可以通過對特徵變數係數的調整來避免過擬合,而引入正則化正是為了實現這個目的,具體如何實現將在下一節說明。常見的正則化方法有這幾種 說明 這裡的f 範數指的是frobenius範數,和logis...

深度學習中的正則化

任何可以使學習演算法有降低泛化誤差意向的改動都是正則化。乙個有效的正則化就是能顯著地降低方差而不過度增加偏差。最好的擬合模型總是乙個適當正則化的大型模型!資料增強是一種便宜且簡單的方法來增加你訓練資料的數量的方法。上面資料增強已經提到,向輸入中注入方差極小的雜訊等價於對權重施加範數懲罰,一般情況下,...

深度學習 網路正則化

in 1n i 1n yi f xi 2 r d min 1n i 1n yi f xi 2 r d 2 12 22l2 12 222 1 i i l2 1 i i 1 1 2 22 1 1 2 22 2 c 2 原理 對於某層神經元,在訓練階段均以概率p隨機將該神經元權重設定為0,在測試階段所有神...