統計學習 L1 L2正則化

正則化時結構風險最小化策略的實現，是在經驗風險上加乙個正則化項或懲罰項。正則化項一般是模型複雜度的單調遞增函式，模型越複雜，正則項值越大。

l2範數$$\frac\sum_^n(f(x_,w - y_)^2 + \frac||w||^2$$

l1範數$$\frac\sum_^n(f(x_,w - y_)^2 + ||w||$$

在所有可能選擇的模型中，能夠很好解釋已知資料，並且十分簡單才是最好的模型。

訓練資料用於計算梯度，更新權重，而驗證資料能確定超參，測試資料給出accurancy，判斷模型好壞。

l2正則化(權重衰減)

\[c = c_0 + \frac\sum_^w^2\\

=>\frac = \frac_0} + \frac w\\

=>w = w- \eta \frac = w -\eta (\frac +\frac w) = w(1- \frac) - \eta\frac

\]因為$1 - \frac < 1$，所以w逐步減小，這就是權重衰減的由來。更小的權重，表示模型複雜度更低，符合奧卡姆剃刀原理。

l1正則化(權重衰減)

\[c = c_0 + \frac\sum_^|w|\\

=>\frac = \frac + sign(w)\frac\\

=>w = w - \eta * \frac \\

=> w = w - \eta * sign(w)\frac - \eta * \frac

\]當 sign(w) > 0時，更新後的w變小，當sign(w) < 0時，更新後的w變大。這兩者情況都讓w向0靠近，使得模型權重盡可能為0，減少模型複雜度。

L1 L2損失和 L1 L2正則化

1 l1損失最小絕對值誤差最小化值真實值的絕對值，魯棒性強。2 l2損失最小平方誤差最小化值真實值的平方，對於大於1的數，平方更大，因此對樣本敏感。3 l1正則化 l1正則化和l2正則化可以看做是損失函式的懲罰項，l1正則化是指權值向量中各個元素的絕對值之和。l1正則化可以產生稀...

L1 L2正則化介紹

1 正則化 regularization 對引數w的影響說明 loss 代表原始的代價函式，後面那一項就是l2正則化項，它是這樣來的所有引數w的平方的和，除以訓練集的樣本大小n。就是正則項係數，權衡正則項.在這裡並沒有除以樣本數量和2，是因為使用了絕對值誤差。一般情況下，los s y y 2 ...

L1，L2正則化的區別

1，l1會趨向於產生少量的特徵，而其他不重要的特徵都為0，會產生稀疏性，可以用來選擇特徵，也能一定程度上防止過擬合。而l 2會選擇更多的特徵，特徵值都趨近於0，防止過擬合。lasso在選擇特徵時非常有用，而ridge就只是規則化而已。所以在所有特徵中只有少數特徵起重要作用的情況下，選擇lasso進行...

統計學習 L1 L2正則化

L1 L2損失 和 L1 L2正則化

L1 L2正則化介紹

L1，L2正則化的區別

相關推薦

L1 L2損失和 L1 L2正則化