深度學習正則化

1 為啥l1 更具有稀疏性

兩種解釋：

1 從l 1和l2 的**來看，貝葉斯學派認為僅僅使用資料是不夠的，還要加入先驗知識，l1 等於拉普拉斯先驗，l2 等於高斯先驗，為了推導和計算方便，會對分布函式取對數，然後再去優化，最後由於引數考慮了資料先驗，學到的規則更加接近實際，

拉普拉斯密度函式的圖形和表示式：

如果對拉普拉斯密度函式取對數，剩下的是乙個一次項|x-u|,這就是l1 正規化，如果對高斯密度取對數剩下的是乙個二次項(x-u)^2 就是l2 正規化，比較兩個分部的密度函式影象可以發現當x 趨向於正無窮和負無窮時，前者是逼近0的，後者是等於0的。

2 從具體的計算求導角度來看

loss 函式與某個引數x 的關係如圖所示，最優的x 在綠點處，x 非零，現在施加l2 正則，新的loss (l+cx2) ,如圖藍線所示，最優點在黃色處，x 的絕對值減少了，但依舊非0，如果加上l1，則新的loss 函式(l+c|x|）如粉線所示，最優的x 就變成了0，這裡利用的就是絕對值函式的尖峰，兩種正則項能不能把最優的x 變成0，取決於原先的損失函式在0 處的導數。若本來導數不為0，加上l2 後導數依然不為0，最優的x 也不會變成0，而加上l1,只要正則項的係數c 大於原先的loss 在0 處的導數的絕對值，x=0 就會變成乙個極小點。

解釋3：對loss 加上l0/l1/l2 正規化約束都會使得很多引數接近於0，但是在接近於0 的時候約束力度會有差別，從導數的角度來看,l1 正則項在0附近的導數始終為正負1，引數更新速度不變，l2 在0 附近接近於0，引數更新緩慢，所以l1 相比於l2 更容易使引數變成0，也就是更稀疏。

2 l2 的本質

深度學習正則化

深度學習正則化

深度學習中的正則化

深度學習網路正則化

深度學習 正則化

深度學習 正則化

深度學習中的正則化

深度學習 網路正則化

相關推薦

深度學習正則化

深度學習正則化

深度學習網路正則化