機器學習中L1和L2正則化詳細解釋

機器學習中，如果引數過多，模型過於複雜，容易造成過擬合（overfit）。即模型在訓練樣本資料上表現的很好，但在實際測試樣本上表現的較差，不具備良好的泛化能力。為了避免過擬合，最常用的一種方法是使用使用正則化，例如 l1 和 l2 正則化。但是，正則化項是如何得來的？其背後的數學原理是什麼？l1 正則化和 l2 正則化之間有何區別？

l2 正則化公式非常簡單，直接在原來的損失函式基礎上加上權重引數的平方和：

其中，ein 是未包含正則化項的訓練樣本誤差，λ 是正則化引數，可調。但是正則化項是如何推導的？接下來，我將詳細介紹其中的物理意義。

我們知道，正則化的目的是限制引數過多或者過大，避免模型更加複雜。例如，使用多項式模型，如果使用 10 階多項式，模型可能過於複雜，容易發生過擬合。所以，為了防止過擬合，我們可以將其高階部分的權重 w 限制為 0，這樣，就相當於從高階的形式轉換為低階。

為了達到這一目的，最直觀的方法就是限制 w 的個數，但是這類條件屬於 np-hard 問題，求解非常困難。所以，一般的做法是尋找更寬鬆的限定條件：

上式是對 w 的平方和做數值上界限定，即所有w 的平方和不超過引數 c。這時候，我們的目標就轉換為：最小化訓練樣本誤差 ein，但是要遵循 w 平方和小於 c 的條件。

如上圖所示，藍色橢圓區域是最小化 ein 區域，紅色圓圈是 w 的限定條件區域。在沒有限定條件的情況下，一般使用梯度下降演算法，在藍色橢圓區域內會一直沿著 w 梯度的反方向前進，直到找到全域性最優值 wlin。例如空間中有一點 w（圖中紫色點），此時 w 會沿著 -∇ein 的方向移動，如圖中藍色箭頭所示。但是，由於存在限定條件，w 不能離開紅色圓形區域，最多只能位於圓上邊緣位置，沿著切線方向。w 的方向如圖中紅色箭頭所示。

那麼問題來了，存在限定條件，w 最終會在什麼位置取得最優解呢？也就是說在滿足限定條件的基礎上，盡量讓 ein 最小。

我們來看，w 是沿著圓的切線方向運動，如上圖綠色箭頭所示。運動方向與 w 的方向（紅色箭頭方向）垂直。運動過程中，根據向量知識，只要 -∇ein 與執行方向有夾角，不垂直，則表明 -∇ein 仍會在 w 切線方向上產生分量，那麼 w 就會繼續運動，尋找下一步最優解。只有當 -∇ein 與 w 的切線方向垂直時，-∇ein在 w 的切線方向才沒有分量，這時候 w 才會停止更新，到達最接近 wlin 的位置，且同時滿足限定條件。

-∇ein 與 w 的切線方向垂直，即 -∇ein 與 w 的方向平行。如上圖所示，藍色箭頭和紅色箭頭互相平行。這樣，根據平行關係得到：

移項，λ是常數項：

這樣，我們就把優化目標和限定條件整合在乙個式子中了。也就是說只要在優化 ein 的過程中滿足上式，就能實現正則化目標。

接下來，重點來了！根據最優化演算法的思想：梯度為 0 的時候，函式取得最優值。已知 ∇ein 是 ein 的梯度，觀察上式，λw 是否也能看成是某個表示式的梯度呢？

當然可以！λw 可以看成是 1/2λw*w 的梯度：

這樣，我們根據平行關係求得的公式，構造乙個新的損失函式：

之所以這樣定義，是因為對 eaug 求導，正好得到上面所求的平行關係式。上式中等式右邊第二項就是 l2 正則化項。

這樣，我們從影象化的角度，分析了 l2 正則化的物理意義，解釋了帶 l2 正則化項的損失函式是如何推導而來的。

l1 正則化公式也很簡單，直接在原來的損失函式基礎上加上權重引數的絕對值：

ein 優化演算法不變，l1 正則化限定了 w 的有效區域是乙個正方形，且滿足 |w| < c。空間中的點 w 沿著 -∇ein 的方向移動。但是，w 不能離開紅色正方形區域，最多只能位於正方形邊緣位置。其推導過程與 l2 類似，

機器學習中L1和L2正則化詳細解釋

L1和L2正則化

l1和l2正則化

L1和L2正則化

相關推薦