L1和L2正則化的直觀理解

2021-08-21 07:28:33 字數 1463 閱讀 9424

這部分內容將解釋

為什麼l1正則化可以產生稀疏模型(l1是怎麼讓係數等於零的)

,以及為什麼l2正則化可以防止過擬合

。假設有如下帶l1正則化的損失函式: j=

j0+α

∑w|w

|(1)j0

是原始的損失函式,加號後面的一項是l1正則化項,

α是正則化係數。注意到l1正則化是權值的

絕對值之和 ,j

是帶有絕對值符號的函式,因此

j是不完全可微的。機器學習的任務就是要通過一些方法(比如梯度下降)求出損失函式的最小值。當我們在原始損失函式j0

後新增l1正則化項時,相當於對j0

做了乙個約束。令l=

α∑w|

w|,則j

=j0+

l,此時我們的任務變成在 l

約束下求出

j 0取最小值的解

。考慮二維的情況,即只有兩個權值w1

和w2,此時l=

|w1|

+|w2

|對於梯度下降法,求解j0

的過程可以畫出等值線,同時l1正則化的函式

l也可以在w1

w2的二維平面上畫出來。如下圖:

圖中等值線是j0

的等值線,黑色方形是

l函式的圖形。在圖中,當j0

等值線與

l圖形首次相交的地方就是最優解。上圖中j0

與l在l

的乙個頂點處相交,這個頂點就是最優解。注意到這個頂點的值是(w

1,w2

)=(0

,w)。可以直觀想象,因為

l函式有很多『突出的角』(二維情況下四個,多維情況下更多),j0

與這些角接觸的機率會遠大於與

l其它部位接觸的機率,而在這些角上,會有很多權值等於0,這就是為什麼l1正則化可以產生稀疏模型,進而可以用於特徵選擇。

而正則化前面的

係數 α

,可以控制

l圖形的大小。

α越小,

l的圖形越大(上圖中的黑色方框);

α越大,

l 的圖形就越小,可以小到黑色方框只超出原點範圍一點點

,這是最優點的值 (w

1,w2

)=(0

,w)中的

w可以取到很小的值。

類似,假設有如下帶l2正則化的損失函式: j=

圖2 l2正則化

二維平面下l2正則化的函式圖形是個圓,與方形相比,被磨去了稜角。因此j0

與l相交時使得w1

或w2等於零的機率小了許多,這就是為什麼l2正則化不具有稀疏性的原因。

**:

機器學習 L1和L2正則化的直觀理解

l2 norm ridge回歸 l1 norm lasso回歸 l1 norm 和 l2 norm都能防止過擬合,一般l2 norm的效能更好一些。l1 norm能夠進行特選擇對資料進行降維 產生稀疏模型,能夠幫助我們去除某些特徵,因此可以用於特徵選擇。l1 norm 和 l2 norm都能防止過擬...

L1和L2正則化的理解

摘錄自 正則化之所以能夠降低過擬合的原因在於,正則化是結構風險最小化的一種策略實現。給loss function加上正則化項,能使得新得到的優化目標函式h f normal,需要在f和normal中做乙個權衡 trade off 如果還像原來只優化f的情況下,那可能得到一組解比較複雜,使得正則項no...

L1和L2正則化

l1和l2正則化 l1與l2正則化都是防止模型過擬合,其方式略有不同。具體請見下文。1 l1 正則化l1正則化 1範數 是指,各權值 變數 特徵 絕對值之和。其作用是產生權值的稀疏模型,也就是讓大部分權值為0.為什麼能產生權值稀疏模型?因為如下圖所示,各權值絕對值之和後得到乙個矩陣,很容易在矩陣的頂...