深度學習中的正則化

2021-08-18 20:44:41 字數 1323 閱讀 9355

任何可以使學習演算法有降低泛化誤差意向的改動都是正則化。乙個有效的正則化就是能顯著地降低方差而不過度增加偏差。

最好的擬合模型總是乙個適當正則化的大型模型!

資料增強是一種便宜且簡單的方法來增加你訓練資料的數量的方法。

上面資料增強已經提到,向輸入中注入方差極小的雜訊等價於對權重施加範數懲罰,一般情況下,注入雜訊遠比簡單的收縮引數強大,特別是引數被新增到隱藏單元時會更加強大。

其他注入雜訊的方法還有:

提前終止需要用到驗證集,因為它的本質是為了找到最佳的訓練輪數或者引數更新次數。在不斷的訓練過程中,為了防止過擬合我們需要參考每輪訓練完之後驗證集的損失是否下降,如果驗證集的損失不再下降了,說明訓練輪數已經夠了,再訓練可能會導致過擬合,所以這個時候就可以終止訓練返回訓練輪數或者引數更新次數或者全部引數值。

提前終止可能是深度學習最常用的正則化形式。它的流行主要是因為它的有效性和簡單性。

我們也可以認為提前終止是非常高效的超引數選擇演算法。按照這個觀點,訓練輪數或者引數更新次數僅是乙個超引數。

為了在訓練時也充分利用驗證集,所以有以下兩種策略:

常用第一種策略!

前面都是加了引數範數懲罰或約束作為正則項,但我們也可以考慮使用一起其他方式來表示引數先驗,例如引數之間的依賴關係,最普遍的依賴型別是:各個引數的值可能很接近。而引數共享就是這種思想,它假設一些引數都是相等的。例如:

這裡不詳細介紹了…

dropout提供了正則化一大類模型的方法,計算方便但功能強大。它可以被認為是整合大量深度神經網路的實用bagging方法。

用dropout時,一般輸入層的keep_prob設為0.8,而隱藏層的keep_prob設為0.5。

對抗樣本:在原始樣本上加一些很小的雜訊生成的那些人眼不會分錯但模型會分錯的樣本。

我們應該在一些對抗樣本上進行對抗訓練,主要為了提高安全性,但有時候也會提高泛化能力。

深度學習中的正則化 一

一般來說,深度學習所要做的事情是用已有的訓練集訓練乙個網路模型,然後針對新的資料給出 我們期望我們的模型在訓練集和測試集上都有良好的表現,但是有的時候兩者不可兼得。一種情況是在訓練集上表現很好,在測試集上表現不好或表現一般 另一種情況是在訓練集上表現不好或表現一般,在測試集上表現很好。相比較而言我們...

深度學習 正則化

1 為啥l1 更具有稀疏性 兩種解釋 1 從l 1和l2 的 來看,貝葉斯學派認為僅僅使用資料是不夠的,還要加入先驗知識,l1 等於拉普拉斯先驗,l2 等於高斯先驗,為了推導和計算方便,會對分布函式取對數,然後再去優化,最後由於引數考慮了 資料先驗,學到的規則更加接近實際,拉普拉斯密度函式的圖形和表...

深度學習 正則化

了解什麼是過擬合問題,以下面為例,我們能夠看到有兩個類別,藍色是分類曲線模型。模型過擬合是因為模型過於複雜,可以通過對特徵變數係數的調整來避免過擬合,而引入正則化正是為了實現這個目的,具體如何實現將在下一節說明。常見的正則化方法有這幾種 說明 這裡的f 範數指的是frobenius範數,和logis...