正則化大資料 L1正則化和L2正則化的聯絡和區別

2021-10-12 18:10:49 字數 1168 閱讀 3733

損失函式的懲罰項

機器學習中，一般損失函式後邊會新增乙個額外項，一般稱作l1正則化l2正則化或者l1範數l2範數。l1、l2正則化可以看做是損失函式的懲罰項。對於線性回歸模型，使用l1正則化得模型稱作lasso回歸，使用l2正則化的模型稱作ridge回歸(嶺回歸)。

l1正則化是指權值向量中各個元素的絕對值之和，例如|w1| + |w2|。

l2正則化是指權值向量中各個元素的平方和然後再求平方根。

l1正則化可以產生稀疏權值矩陣，即產生乙個稀疏模型，用於特徵選擇。

假設有如下帶有l1正則化的目標函式等高線圖：

l1正則化的目標函式求解

圖中等值線是j0函式等值線，黑色菱形是l函式的圖形。我們現在的目標就是不僅要原函式更接近紫色的小圈，同時要使得菱形值越小越好。並且加入l1範數的解，一定是某條等高線和菱形的切點。這個切點位於頂點時就是最優解。這個頂點的座標為(0，w)。(二維情況有四個頂點，多維情況下有更多)

l2正則化可以產生引數值較小的模型，能適應不同的資料集，一定程度上防止過擬合，抗擾動能力強。

l2正則化的目標函式求解

l2正則的分析與l1類似，只不過l函式由菱形變成了圓形，仍舊求原曲線和圓形的切點作為最優解。此時切點不容易在座標軸上，而是位於靠近座標軸的部分，因此我們可以說l2範數能讓解比較小(靠近0)，但是比較平滑(不等於0)。

最後，我們所說的希望模型結構風險(srm)最小化，是要求擬合誤差足夠小(經驗風險erm最小化)，同時模型不要太複雜(正則化項極小化)，這樣得到的模型具有較強的泛化能力，即對未知的資料有更好的**能力。

l1正則化和l2正則化l1正則化

就是在loss function後邊所加正則項為l1範數，加上l1範數容易得到稀疏解(0比較多)。l2正則化就是loss function後邊所加正則項為l2範數的平方，加上l2正則相比於l1正則來說，得到的解比較平滑(不是稀疏)，但是同樣能夠保證解中接近於0(但不是等於0，所以相對平滑)的維度比較多，降低模型的複雜度。

L1正則化和L2正則化

為了降低過擬合風險，需要控制模型複雜度，自然想到減少引數個數，但是這個問題不易直接解決，可以通過放寬條件控制。新增優化條件這會使引數條件空間有明顯的凸角，這些突出點顯然會成為聯合優化時的最優解，但同時這些這些凸點中又會有較多的0值由其限制條件可見，凸點都在座標軸上因此l1範數會更易得到稀疏解，...

L1正則化和L2正則化

l1標準化與l2標準化參考 l1 l2標準化及其python 實現我們知道，正則化的目的是限制引數過多或者過大，避免模型更加複雜。l1 與 l2 解的稀疏性以二維情況討論，上圖左邊是 l2 正則化，右邊是 l1 正則化。從另乙個方面來看，滿足正則化條件，實際上是求解藍色區域與黃色區域的交點，即...

L1正則化和L2正則化

摘自深度學習 l1正則化和l2正則化在機器學習中，我們非常關心模型的能力，即模型在新資料上的表現，而不希望過擬合現象的的發生，我們通常使用正則化 regularization 技術來防止過擬合情況。正則化是機器學習中通過顯式的控制模型複雜度來避免模型過擬合確保泛化能力的一種有效方式。如果將模...