正則化 大資料 L1正則化和L2正則化的聯絡和區別

2021-10-12 18:10:49 字數 1168 閱讀 3733

損失函式的懲罰項

機器學習中,一般損失函式後邊會新增乙個額外項,一般稱作l1正則化l2正則化或者l1範數l2範數。l1、l2正則化可以看做是損失函式的懲罰項。對於線性回歸模型,使用l1正則化得模型稱作lasso回歸,使用l2正則化的模型稱作ridge回歸(嶺回歸)。

l1正則化是指權值向量中各個元素的絕對值之和,例如|w1| + |w2|。

l2正則化是指權值向量中各個元素的平方和然後再求平方根。

l1正則化可以產生稀疏權值矩陣,即產生乙個稀疏模型,用於特徵選擇。

假設有如下帶有l1正則化的目標函式等高線圖:

l1正則化的目標函式求解

圖中等值線是j0函式等值線,黑色菱形是l函式的圖形。我們現在的目標就是不僅要原函式更接近紫色的小圈,同時要使得菱形值越小越好。並且加入l1範數的解,一定是某條等高線和菱形的切點。這個切點位於頂點時就是最優解。這個頂點的座標為(0,w)。(二維情況有四個頂點,多維情況下有更多)

l2正則化可以產生引數值較小的模型,能適應不同的資料集,一定程度上防止過擬合,抗擾動能力強。

l2正則化的目標函式求解

l2正則的分析與l1類似,只不過l函式由菱形變成了圓形,仍舊求原曲線和圓形的切點作為最優解。此時切點不容易在座標軸上,而是位於靠近座標軸的部分,因此我們可以說l2範數能讓解比較小(靠近0),但是比較平滑(不等於0)。

最後,我們所說的希望模型結構風險(srm)最小化,是要求擬合誤差足夠小(經驗風險erm最小化),同時模型不要太複雜(正則化項極小化),這樣得到的模型具有較強的泛化能力,即對未知的資料有更好的**能力。

l1正則化和l2正則化l1正則化

就是在loss function後邊所加正則項為l1範數,加上l1範數容易得到稀疏解(0比較多)。l2正則化就是loss function後邊所加正則項為l2範數的平方,加上l2正則相比於l1正則來說,得到的解比較平滑(不是稀疏),但是同樣能夠保證解中接近於0(但不是等於0,所以相對平滑)的維度比較多,降低模型的複雜度。

L1正則化和L2正則化

為了降低過擬合風險,需要控制模型複雜度,自然想到減少引數個數,但是這個問題不易直接解決,可以通過放寬條件控制。新增優化條件 這會使引數條件空間有明顯的凸角,這些突出點顯然會成為聯合優化時的最優解,但同時這些這些凸點中又會有較多的0值 由其限制條件可見,凸點都在座標軸上 因此l1範數會更易得到稀疏解,...

L1正則化和L2正則化

l1標準化與l2標準化 參考 l1 l2標準化及其python 實現 我們知道,正則化的目的是限制引數過多或者過大,避免模型更加複雜。l1 與 l2 解的稀疏性 以二維情況討論,上圖左邊是 l2 正則化,右邊是 l1 正則化。從另乙個方面來看,滿足正則化條件,實際上是求解藍色區域與黃色區域的交點,即...

L1正則化和L2正則化

摘自 深度學習 l1正則化和l2正則化 在機器學習中,我們非常關心模型的 能力,即模型在新資料上的表現,而不希望過擬合現象的的發生,我們通常使用正則化 regularization 技術來防止過擬合情況。正則化是機器學習中通過顯式的控制模型複雜度來避免模型過擬合 確保泛化能力的一種有效方式。如果將模...