L1正則使得模型的解稀疏

為簡單地說明，我們在一維情況下做乙個分析，設f(w

)f(w)

f(w)

是是沒有新增l1正則時的原始的目標函式，c∣w

∣c|w|

c∣w∣

是l1正則項，那麼新增正則之後的新的目標函式為h(ω

)=f(

ω)+c

∣ω∣h(\omega)=f(\omega)+c|\omega|

h(ω)=f

(ω)+

c∣ω∣

。如果要讓0點變成可能的最值點，因為c∣w

∣c|w|

c∣w∣

在0處不可導，但是只要滿足0點左右h(w

)h(w)

h(w)

的導數異號，0點都會變成可能的極值點。即：

h ′(

0−)×

h′(0

+)=(

f′(0

)+c)

(f′(

0)−c

0h^(0-) \times h^(0+)=\left(f^(0)+c\right)\left(f^(0)-c\right)<0

h′(0−)

×h′(

0+)=

(f′(

0)+c

)(f′

(0)−

c)<

0也就是當滿足c

>∣f

′(0)

∣c>\left|f^(0)\right|

c>∣f

′(0)

∣時，0點都是可能的最值點。

注意：我認為不僅需要異號，必須左邊導數小於0，右邊大於0，這是代價函式在0處才是極小值。

下圖給出乙個簡單的代價函式為例：

l =x

3+2x

−3x3

+0.5

l=x^+2x-3x^+0.5

l=x3+2

x−3x

3+0.

5這裡l1正則設定為 2.5∣x

∣2.5\left| x \right|

2.5∣x∣

，l2正則設定為2.5x2

2.5x^

2.5x

2，分別新增到原始代價函式中lll

在新增了l1正則項和l2正則項後解的變化情況見圖中曲線

可以看到，因為有了l1正則，使得原始代價函式的解變成了現在的0，即解變得稀疏了。此時0是極小值點並且兩邊的導數是異號的。而l2正則使得原始的極值點更接近0了。

L1正則化與稀疏性 L1正則化不可導問題

l1正則化與稀疏性座標軸下降法解決l1正則化不可導的問題 lasso回歸演算法座標軸下降法與最小角回歸法小結 l1正則化使得模型引數具有稀疏性的原理是什麼？機器學習經典之作 pattern recognition and machine learning 中的第三章作出的乙個解釋無疑是權威且直...

L1正則化產生稀疏模型，L2正則防止過擬合

j j0 alph a w w 1 1 j j0 a lpha w w 其中j0 j 0是原始的損失函式，後半部分為l1 l 1正則化項，為絕對值之和，j j 帶有絕對值符號的函式，因此 j role presentation j j是不完全可微的。機器學習的任務就是要通過一些方法比如梯度下降求...

正則化 L1正則化（稀疏性正則化）

稀疏向量通常包含許多維度。建立特徵組合會導致包含更多維度。由於使用此類高維度特徵向量，因此模型可能會非常龐大，並且需要大量的 ram。在高維度稀疏向量中，最好盡可能使權重正好降至 0。正好為 0 的權重基本上會使相應特徵從模型中移除。將特徵設為 0 可節省 ram 空間，且可以減少模型中的噪點。以乙...

L1正則使得模型的解稀疏

L1正則化與稀疏性 L1正則化不可導問題

L1正則化產生稀疏模型，L2正則防止過擬合

正則化 L1正則化（稀疏性正則化）

相關推薦