深度學習中的正則化一

一般來說，深度學習所要做的事情是用已有的訓練集訓練乙個網路模型，然後針對新的資料給出**，我們期望我們的模型在訓練集和測試集上都有良好的表現，但是有的時候兩者不可兼得。一種情況是在訓練集上表現很好，在測試集上表現不好或表現一般；另一種情況是在訓練集上表現不好或表現一般，在測試集上表現很好。相比較而言我們更傾向於後者，因為這是我們訓練模型的目的。

為什麼會出現這種情況，難道不是應該訓練集上表現的越好在測試集上表現越好嗎？不是的，我們在前面的文章中分析過，過度的擬合乙個訓練集往往會放大哪些沒有那麼重要的向量或因素，過擬合會導致泛化能力的下降，正則化就是為了減小測試誤差的，雖然有的時候可能會以增大訓練誤差為代價，但是這是值得的，這些策略統稱為正則化。下面給出乙個簡單的非嚴謹的正則化定義：

正則化：減小泛化誤差而不是訓練誤差所做的對演算法的修改

我們經常會對估計進行正則化，估計的正則化採取的方式是以偏差的增大來換取方差的減小，尤其是顯著的減小方差而較小的增大偏差往往是我們追求的目標。接下來我們就分別分析介紹一下正則化的策略。

引數範數懲罰

j ~(

θ;x,

y)=j

(θ;x

,y)+

αω(θ

),α∈

[0,∞

)\widetilde(θ; x, y) = j(θ; x, y) + αω(θ), α∈[0, ∞)

j(θ;x,

y)=j

(θ;x

,y)+

αω(θ

),α∈

[0,∞

)α 是懲罰引數，當 α 為 0 時代表沒有懲罰；ω 是範數懲罰項；j 為目標。神經網路中，引數包括每一層的仿射變換的權重和偏置，我們只對權重做懲罰。

l2 正則化(權重衰減)

感知有較高方差輸入，與輸出目標協方差較小的特徵的權重會收縮。

目標函

數：j~

(θ;x

,y)=

j(θ;

x,y)

+α2w

tw,ω

(θ)=

12∣∣

w∣∣2

2梯度：

∇wj~

(θ;x

,y)=

αw+∇

wj(θ

;x,y

)單步梯

度下降更

新權重：

w←w−

ϵ(αw

+∇wj

(θ;x

,y))

目標函式：\widetilde(θ; x, y) = j(θ; x, y) + \fracw^tw,ω(θ)=\frac||w||^2_2 \\ 梯度：\nabla_w\widetilde(θ;x,y)=αw+\nabla_wj(θ;x,y) \\ 單步梯度下降更新權重：w\leftarrow w-\epsilon(αw+\nabla_wj(θ;x,y))

目標函式：j

(θ;x

,y)=

j(θ;

x,y)

+2α

wtw,

ω(θ)

=21

∣∣w∣

∣22

梯度：∇

wj(

θ;x,

y)=α

w+∇w

j(θ

;x,y

)單步梯

度下降更

新權重：

w←w−

ϵ(αw

+∇w

j(θ;

x,y)

)l1 正則化

目標函

數：j~

(θ;x

,y)=

j(θ;

x,y)

+α∣∣

w∣∣1

梯度：∇

wj~(

θ;x,

y)=α

sign

(w)+

∇wj(

θ;x,

目標函式：\widetilde(θ; x, y) = j(θ; x, y) + α||w||_1 \\ 梯度：\nabla_w\widetilde(θ;x,y)=αsign(w)+\nabla_wj(θ;x,y)

目標函式：j

(θ;x

,y)=

j(θ;

x,y)

+α∣∣

w∣∣1

梯度：

∇wj

(θ;x

,y)=

αsig

n(w)

+∇w

j(θ;

x,y)

本文描述了正則化策略中最常見的一種，引數範數懲罰，並介紹了 l2 和 l1 兩種最常見的範數懲罰策略。

深度學習中的正則化一

深度學習中的正則化

深度學習正則化

深度學習正則化

深度學習中的正則化 一

深度學習中的正則化

深度學習 正則化

深度學習 正則化

相關推薦

深度學習中的正則化一

深度學習正則化

深度學習正則化