深入理解L1 L2範數

2021-09-02 02:08:29 字數 2359 閱讀 6493

說起l1、l2範數,大家會立馬想到這是機器學習中常用的正則化方法,一般新增在損失函式後面,可以看作是損失函式的懲罰項。那新增l1和l2正則化後到底有什麼具體作用呢?為什麼會產生這樣的作用?本篇博文將和大家一起去**l1範數、l2範數背後的原理。

l1和l2的作用如下

理解l1,主要需要理解兩個問題。第一是l1產生稀疏矩陣的作用,第二是為什麼l1可以產生稀疏模型。

稀疏矩陣指的是很多元素為0、只有少數元素是非零值的矩陣。以線性回歸為例,即得到的線性回歸模型的大部分係數都是0,這表示只有少數特徵對這個模型有貢獻,從而實現了特徵選擇。總而言之,稀疏模型有助於進行特徵選擇。

這部分重點討論為什麼l1可以產生稀疏模型,即l1是怎麼讓係數等於0的。首先要從目標函式講起,假設帶有l1正則化的損失函式如下:

其中j0是損失函式,後邊是l1正則化項,α

\alpha

α是正則化係數,ω

\omega

ω是模型的引數。現在我們的目標是求解argminω

\omega

ω(j),換句話說,我們的任務是在l1的約束下求出j0取最小值的解。假設只考慮二維的情況,即只有兩個權值ω

\omega

ω1和ω

\omega

ω2,此時的l1正則化公式即為:l1 = |ω

\omega

ω1| + |ω

\omega

ω2|。對j使用梯度下降法求解,則求解j0的過程可以畫出等值線,同時l1正則化的函式也可以在二維平面上畫出來。如下圖:

圖1 l1正則化

圖中等值線是j0的等值線,黑色方形是l1函式的圖形,j0等值線與l1圖形首次相交的地方就是最優解,我們很容易發現黑色方形必然首先與等值線相交於方形頂點處。可以直觀想象,因為l1函式有很多"突出的角"(二維情況下有四個,多維情況下更多),j0與這些角接觸的概率遠大於與其它部分接觸的概率。而這些點某些維度為0(以上圖為例,交點處ω

\omega

ω1為0),從而會使部分特徵等於0,產生稀疏模型,進而可以用於特徵選擇。

要想知道l2範數為什麼可以防止過擬合,首先就要知道什麼是過擬合。通俗講,過擬合是指模型引數較大,模型過於複雜,模型抗擾動能力弱。只要測試資料偏移一點點,就會對結果造成很大的影響。因此,要防止過擬合,其中一種方法就是讓引數盡可能的小一些。同l1範數分析一樣,我們做出影象,如下圖所示:

圖2 l2正則化

二維平面下l2正則化的函式圖形是個圓,與方形相比,沒有突出的稜角。因此交點在座標軸的概率很低,即使得ω

\omega

ω1或ω

\omega

ω2等於零的概率小了許多。由上圖可知,l2中得到的兩個權值傾向於均為非零的較小數。這也就是l1稀疏、l2平滑的原因。

下面我從公式的角度解釋一下,為什麼l2正則化可以獲得值很小的引數?

以線性回歸中的梯度下降法為例。假設要求的引數為θ

\theta

θ, hθ

\theta

θ(x)是我們的model,那麼lr的損失函式如下:

那麼在梯度下降法中,最終用於迭代計算引數θ

\theta

θ的迭代式為:

當對損失函式加上l2正則化以後,迭代公式會變成下面的樣子:

從上式可以看出,與未新增l2正則化的迭代公式相比,每一次迭代,θ

\theta

θj都要乘以乙個小於1的因子,從而使得θ

\theta

θj不斷減小,因此總的來看,θ

\theta

θ是不斷減小的。

l1會趨向於產生少量的特徵,而其它特徵都是0。l2會選擇更多的特徵,這些特徵都會趨近於0。l1在特徵選擇時非常有用,而l2只是一種防止過擬合的方法。在所有特徵中只有少數特徵起重要作用的情況下,選擇l1範數比較合適,因為它能自動選擇特徵。而如果所有特徵中,大部分特徵都能起作用,而且起的作用很平均,那麼使用l2範數也許更合適。

L1 L2範數 概念

向量的範數可以簡單形象的理解為向量的長度,或者向量到零點的距離,或者相應的兩個點之間的距離。向量的範數定義 向量的範數是乙個函式 x 滿足非負性 x 0,齊次性 cx c x 三角不等式 x y x y 常用的向量的範數 l0範數 x 0為x向量各個非零元素的個數 l1範數 x 1 為x向量各個元素...

L1 L2範數理解 Ridge以及Lasso回歸

l0範數 指向量中非0的元素的個數。l0範數很難優化求解 l1範數 指向量中各個元素絕對值之和 l2範數 指向量各元素的平方和然後求平方根 注 l0範數,指向量中非零元素的個數。無窮範數,指向量中所有元素的最大絕對值。l1範數 可以進行特徵選擇,即讓特徵的係數變為0.l2範數 可以防止過擬合,提公升...

對於正則化項L1,L2範數的理解

之前講到了利用正則化項降低過擬合,這裡再總結一下l1,l2這兩種範數作為正則化項各自的特點及區別 在深度學習一書中,帶有l2範數的正則化項的目標函式如下 其中 wtw wwtw w 2 2 w 2 即為l2範數,其實運用仔細一看這個就是帶有不等式約束的拉格朗日函式最優化問題即 minj w x,y ...