花書 吳恩達深度學習(五)正則化方法(防止過擬合)

2021-09-02 05:41:55 字數 2166 閱讀 7063

0. 前言

1. 引數範數懲罰

2. dropout 隨機失活

3. 提前終止

4. 資料集增強

5. 引數共享

花書+吳恩達深度學習(五)正則化方法(防止過擬合)

花書+吳恩達深度學習(六)優化方法之 mini-batch(sgd, mbgd, bgd)

花書+吳恩達深度學習(七)優化方法之基本演算法(momentum, nesterov, adagrad, rmsprop, adam)

花書+吳恩達深度學習(八)優化方法之 batch normalization

花書+吳恩達深度學習(九)優化方法之二階近似方法(牛頓法, cg, bfgs, l-bfgs)

通常,我們將資料集劃分為訓練集和測試集,降低訓練集的訓練誤差,對測試集進行泛化。

但有的時候,訓練集的訓練誤差很小,但是測試集的泛化誤差很大,這被稱為過擬合,高方差。

為了解決這類的問題,引入了正則化方法。

正則化被定義為對學習演算法的修改,旨在減少泛化誤差而不是訓練誤差

引數範數懲罰對損失函式進行修改:

因為偏置僅控制乙個單變數,影響不大,所以我們只對權重做懲罰而不對偏置做懲罰

為了減少搜尋空間,我們對所有層使用相同的權重衰減

l2 引數懲罰,通過向目標函式新增如下正則化項,使權重更加接近原點

l1 引數懲罰,通過向目標函式新增如下正則化項,會產生更稀疏的解

在神經網路中,表現為frobenius 範數,是對每一層的權重矩陣懲罰:

有文獻指出一種策略,約束每一層每個神經元的範數,而不是約束每一層整個權重矩陣的 frobenius 範數,可以防止某一隱藏單元有非常大的權重。

過擬合表現為神經網路對資料的擬合度太好,為了降低擬合度,我們可以使得神經網路中部分單元失活(去除單元)。

dropout 訓練的整合包括從基礎網路中除去非輸出單元後形成的子網路。

在一次前向傳播和反向傳播中,遍歷每一層的每個神經元,按照一定概率使其失活(輸入單元

對每一層的計算可簡單表示如下,最後一步是為了保證期望不變:

dropout 的優點:

可以在不同層上使用不同

不限制適用的模型,幾乎在所有使用分布式表示且可以用隨機梯度下降的模型上都表現很好

dropout 的缺點:

損失函式不能顯式的表示出來,無法畫出帶有 dropout 的損失函式影象

雖然泛化誤差會降低很多,但是代價是更大的模型和更多訓練演算法的迭代次數

通常情況下,泛化誤差會隨著迭代次數呈現 u 型影象:

我們只需要在泛化誤差的最低點提前終止訓練即可。

一種實現思路是:設定引數

有兩種使用提前終止的策略

小量資料集通過提前終止得出了迭代的步數

小量資料集通過提前終止得出了最小的損失函式

提前終止的優點:

幾乎不需要改變訓練過程、目標函式和引數

可以單獨使用,也可以和其他正則化策略結合使用

提前終止能自動確定正則化的正確量,而權重衰減需要進行多個超引數測試

提前終止的缺點:

無法同時權衡:降低訓練誤差和防止過擬合,因為為防止過擬合而終止迭代,也就無法繼續降低訓練誤差

我們也可以通過增加資料量,來減少過擬合的問題。

資料集增前通過創造假資料並新增到訓練集中,來增加資料量。

例如在影象識別中,可以對影象進行平移,翻轉,裁剪,放大,更改顏色 rgb 等操作創造新資料。

假設,有引數

如果這些任務足夠相似,我們可以假設引數

正則化乙個監督學習模型的引數,使其接近另乙個無監督學習模型的引數,這種架構使得分類模型中的許多引數能與無監督模型中對應的引數匹配。

吳恩達深度學習筆記(Dropout正則化)

dropout概念 dropout作為一種預防cnn過擬合的正則化方法被hinton等人在2012年的經典 imagenet classification with deep convolutional 中提出。dropout的原理很簡單 在一次訓練時的迭代中,對每一層中的神經元 總數為n 以概率p...

深度學習 吳恩達

第三週神經網路 啟用函式 第一門課 感謝黃博的參考筆記 一次梯度下降 正向傳播與反向傳播 一次反向傳播梯度下降 注意與機器學習課程不同的一點是,第一層不算樣本輸入 a t an z a tan z a tan z 的值域是位於 1和 1之間。a t anh z e z e zez e za tanh...

吳恩達機器學習(正則化)

圖1 是乙個線性模型,欠擬合或者叫做高偏差,不能很好地適應我們的訓練集 我們看看這些資料,很明顯,隨著房子面積增大,住房 的變化趨於穩定或者說越往右越平緩。因此線性回歸並沒有很好擬合訓練資料。圖2 恰當合適的擬合了資料 圖3 完美的擬合了訓練資料,稱之為過擬合或者叫做高方差,過於強調擬合原始資料,而...