L1和L2正則化

l0範數指的是向量中非零元素的個數，l0正則化就是限制非零元素的個數在一定的範圍，這很明顯會帶來稀疏。一般而言，用l0範數實現稀疏是乙個np-hard問題，因此人們一般使用l1正則化來對模型進行稀疏約束。

稀疏性

參考：另外一種解釋：

假設費用函式l與某個引數w的關係如圖所示：

則最優的 w在綠點處，w非零。

現在施加 l2 regularization，新的費用函式（l+λw²）如圖中藍線所示：

最優的 x 在黃點處，x 的絕對值減小了，但依然非零。

而如果施加 l1 regularization，則新的費用函式（l+λ|w|）如圖中粉線所示：

最優的w就變成了 0。這裡利用的就是絕對值函式的尖峰。兩種regularization能不能把最優的w變成0，取決於原先的費用函式在 0 點處的導數。如果本來導數不為 0，那麼施加 l2 regularization 後導數依然不為 0，最優的 x 也不會變成 0。而施加 l1 regularization 時，只要 regularization 項的係數 c 大於原先費用函式在 0 點處的導數的絕對值，x = 0 就會變成乙個極小值點。上面只分析了乙個引數 x。事實上 l1 regularization 會使得許多引數的最優值變成 0，這樣模型就稀疏了。

參考：

L1和L2正則化

L1和L2正則化

l1和l2正則化

正則化（L1和L2正則）

L1和L2正則化

L1和L2正則化

l1和l2正則化

正則化（L1和L2正則）

相關推薦