統計學習 L1 L2正則化

2022-07-07 01:30:20 字數 873 閱讀 8786

正則化時結構風險最小化策略的實現,是在經驗風險上加乙個正則化項或懲罰項。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則項值越大。

l2範數$$\frac\sum_^n(f(x_,w - y_)^2 + \frac||w||^2$$

l1範數$$\frac\sum_^n(f(x_,w - y_)^2 + ||w||$$

在所有可能選擇的模型中,能夠很好解釋已知資料,並且十分簡單才是最好的模型。

訓練資料用於計算梯度,更新權重,而驗證資料能確定超參,測試資料給出accurancy,判斷模型好壞。

l2正則化(權重衰減)

\[c = c_0 + \frac\sum_^w^2\\

=>\frac = \frac_0} + \frac w\\

=>w = w- \eta \frac = w -\eta (\frac +\frac w) = w(1- \frac) - \eta\frac

\]因為\(1 - \frac < 1\),所以w逐步減小,這就是權重衰減的由來。更小的權重,表示模型複雜度更低,符合奧卡姆剃刀原理。

l1正則化(權重衰減)

\[c = c_0 + \frac\sum_^|w|\\

=>\frac = \frac + sign(w)\frac\\

=>w = w - \eta * \frac \\

=> w = w - \eta * sign(w)\frac - \eta * \frac

\]當 sign(w) > 0時,更新後的w變小,當sign(w) < 0時,更新後的w變大。這兩者情況都讓w向0靠近,使得模型權重盡可能為0,減少模型複雜度。

L1 L2損失 和 L1 L2正則化

1 l1損失 最小絕對值誤差 最小化 值 真實值 的絕對值,魯棒性強。2 l2損失 最小平方誤差 最小化 值 真實值 的平方,對於大於1的數,平方更大,因此對樣本敏感。3 l1正則化 l1正則化和l2正則化可以看做是損失函式的懲罰項,l1正則化是指權值向量中各個元素的絕對值之和。l1正則化可以產生稀...

L1 L2正則化介紹

1 正則化 regularization 對引數w的影響 說明 loss 代表原始的代價函式,後面那一項就是l2正則化項,它是這樣來的 所有引數w的平方的和,除以訓練集的樣本大小n。就是正則項係數,權衡正則項.在這裡並沒有除以樣本數量和2,是因為使用了絕對值誤差。一般情況下,los s y y 2 ...

L1,L2正則化的區別

1,l1會趨向於產生少量的特徵,而其他不重要的特徵都為0,會產生稀疏性,可以用來選擇特徵,也能一定程度上防止過擬合。而l 2會選擇更多的特徵,特徵值都趨近於0,防止過擬合。lasso在選擇特徵時非常有用,而ridge就只是規則化而已。所以在所有特徵中只有少數特徵起重要作用的情況下,選擇lasso進行...