深度學習中的正則化 一

2021-10-08 07:01:55 字數 2335 閱讀 9171

一般來說,深度學習所要做的事情是用已有的訓練集訓練乙個網路模型,然後針對新的資料給出**,我們期望我們的模型在訓練集和測試集上都有良好的表現,但是有的時候兩者不可兼得。一種情況是在訓練集上表現很好,在測試集上表現不好或表現一般;另一種情況是在訓練集上表現不好或表現一般,在測試集上表現很好。相比較而言我們更傾向於後者,因為這是我們訓練模型的目的。

為什麼會出現這種情況,難道不是應該訓練集上表現的越好在測試集上表現越好嗎?不是的,我們在前面的文章中分析過,過度的擬合乙個訓練集往往會放大哪些沒有那麼重要的向量或因素,過擬合會導致泛化能力的下降,正則化就是為了減小測試誤差的,雖然有的時候可能會以增大訓練誤差為代價,但是這是值得的,這些策略統稱為正則化。下面給出乙個簡單的非嚴謹的正則化定義:

正則化:減小泛化誤差而不是訓練誤差所做的對演算法的修改

我們經常會對估計進行正則化,估計的正則化採取的方式是以偏差的增大來換取方差的減小,尤其是顯著的減小方差而較小的增大偏差往往是我們追求的目標。接下來我們就分別分析介紹一下正則化的策略。

引數範數懲罰

j ~(

θ;x,

y)=j

(θ;x

,y)+

αω(θ

),α∈

[0,∞

)\widetilde(θ; x, y) = j(θ; x, y) + αω(θ), α∈[0, ∞)

j(θ;x,

y)=j

(θ;x

,y)+

αω(θ

),α∈

[0,∞

)α 是懲罰引數,當 α 為 0 時代表沒有懲罰;ω 是範數懲罰項;j 為目標。神經網路中,引數包括每一層的仿射變換的權重和偏置,我們只對權重做懲罰。

l2 正則化(權重衰減)

感知有較高方差輸入,與輸出目標協方差較小的特徵的權重會收縮。

目 標函

數:j~

(θ;x

,y)=

j(θ;

x,y)

+α2w

tw,ω

(θ)=

12∣∣

w∣∣2

2梯度:

∇wj~

(θ;x

,y)=

αw+∇

wj(θ

;x,y

)單步梯

度下降更

新權重:

w←w−

ϵ(αw

+∇wj

(θ;x

,y))

目標函式:\widetilde(θ; x, y) = j(θ; x, y) + \fracw^tw,ω(θ)=\frac||w||^2_2 \\ 梯度:\nabla_w\widetilde(θ;x,y)=αw+\nabla_wj(θ;x,y) \\ 單步梯度下降更新權重:w\leftarrow w-\epsilon(αw+\nabla_wj(θ;x,y))

目標函式:j

(θ;x

,y)=

j(θ;

x,y)

+2α​

wtw,

ω(θ)

=21​

∣∣w∣

∣22​

梯度:∇

w​j(

θ;x,

y)=α

w+∇w

​j(θ

;x,y

)單步梯

度下降更

新權重:

w←w−

ϵ(αw

+∇w​

j(θ;

x,y)

)l1 正則化

目 標函

數:j~

(θ;x

,y)=

j(θ;

x,y)

+α∣∣

w∣∣1

梯度:∇

wj~(

θ;x,

y)=α

sign

(w)+

∇wj(

θ;x,

y)

目標函式:\widetilde(θ; x, y) = j(θ; x, y) + α||w||_1 \\ 梯度:\nabla_w\widetilde(θ;x,y)=αsign(w)+\nabla_wj(θ;x,y)

目標函式:j

(θ;x

,y)=

j(θ;

x,y)

+α∣∣

w∣∣1

​梯度:

∇w​j

(θ;x

,y)=

αsig

n(w)

+∇w​

j(θ;

x,y)

本文描述了正則化策略中最常見的一種,引數範數懲罰,並介紹了 l2 和 l1 兩種最常見的範數懲罰策略。

深度學習中的正則化

任何可以使學習演算法有降低泛化誤差意向的改動都是正則化。乙個有效的正則化就是能顯著地降低方差而不過度增加偏差。最好的擬合模型總是乙個適當正則化的大型模型!資料增強是一種便宜且簡單的方法來增加你訓練資料的數量的方法。上面資料增強已經提到,向輸入中注入方差極小的雜訊等價於對權重施加範數懲罰,一般情況下,...

深度學習 正則化

1 為啥l1 更具有稀疏性 兩種解釋 1 從l 1和l2 的 來看,貝葉斯學派認為僅僅使用資料是不夠的,還要加入先驗知識,l1 等於拉普拉斯先驗,l2 等於高斯先驗,為了推導和計算方便,會對分布函式取對數,然後再去優化,最後由於引數考慮了 資料先驗,學到的規則更加接近實際,拉普拉斯密度函式的圖形和表...

深度學習 正則化

了解什麼是過擬合問題,以下面為例,我們能夠看到有兩個類別,藍色是分類曲線模型。模型過擬合是因為模型過於複雜,可以通過對特徵變數係數的調整來避免過擬合,而引入正則化正是為了實現這個目的,具體如何實現將在下一節說明。常見的正則化方法有這幾種 說明 這裡的f 範數指的是frobenius範數,和logis...