v 3 線性回歸L1與L2正則化

2021-09-25 22:09:01 字數 1089 閱讀 6772

機器學習監督演算法的基本思路是 讓擬合的模型盡量接近真實資料 。在這個過程可能存在兩個截然相反的問題:過擬合和欠擬合。欠擬合是模型**值與真實值之間誤差較大,梯度下降就是討論解決問題(求損失函式最小)。

而正則化則是**過擬合的問題。正則化通過降低模型的複雜性,達到避免過擬合的問題。

損失函式後面會新增乙個額外項,常用的額外項一般有兩種:l1正則化和l2正則化。

l1正則化和l2正則化可以看做是損失函式的懲罰項。所謂『懲罰』是指對損失函式中的某些引數做一些限制。對於線性回歸模型,使用l1正則化的模型建叫做lasso回歸,使用l2正則化的模型叫做ridge回歸(嶺回歸)。

結論:

l1正則化和l2正則化:l1正則化就是在loss function後邊所加正則項為l1範數,加上l1範數容易得到稀疏解(0比較多)。l2正則化就是loss function後邊所加正則項為l2範數的平方,加上l2正則相比於l1正則來說,得到的解比較平滑(不是稀疏),但是同樣能夠保證解中接近於0(但不是等於0,所以相對平滑)的維度比較多,降低模型的複雜度。l1與l2解決過擬合幾何原理

1. l2 regularizer :使得模型的解偏向於 norm較小的 w,通過限制w 的norm 的大小實現了對模型空間的限制,從而在一定程度上避免了overfitting 。不過ridge regression 並不具有產生稀疏解的能力,得到的係數 仍然需要資料中的所有特徵才能計算**結果,從計算量上來說並沒有得到改觀。

2. l1 regularizer : 它的優良性質是能產生稀疏性,導致 w中許多項變成零。 稀疏的解除了計算量上的好處之外,更重要的是更具有「可解釋性」。

L1與L2正則化

在機器學習中,我們茶廠聽到l1和l2正則化,用他們來防止過擬合,但是在什麼情況下使用它們和它們的原理是什麼樣的可能一知半解。所以在本部落格中將對l1和l2做簡單的介紹和應用場景。如果引數過多,模型過於複雜,容易造成過擬合 overfit 即模型在訓練樣本資料上表現的很好,但在實際測試樣本上表現的較差...

L1與L2正則化

尊重原創,我沒有改動乙個字。過擬合示意圖 我們知道,過擬合就是所謂的模型對可見的資料過度自信,非常完美的擬合上了這些資料,如果具備過擬合的能力,那麼這個方程就可能是乙個比較複雜的非線性方程 正是因為這裡的 x 3 和 x 2 使得這條虛線能夠被彎來彎去,所以整個模型就會特別努力地去學習作用在 x 3...

L1 與 L2 正則化

參考這篇文章 1.l2 正則化直觀解釋 l2 正則化公式非常簡單,直接在原來的損失函式基礎上加上權重引數的平方和 l ein jw2j l ein jwj2 其中,ein 是未包含正則化項的訓練樣本誤差,是正則化引數,可調。但是正則化項是如何推導的?接下來,我將詳細介紹其中的物理意義。我們知道,正則...