神經網路之dropout層

因為在機器學習的一些模型中，如果模型的引數太多，而訓練樣本又太少的話，這樣訓練出來的模型很容易產生過擬合現象。在訓練bp網路時經常遇到的乙個問題，過擬合指的是模型在訓練資料上損失函式比較小，**準確率較高（如果通過畫圖來表示的話，就是擬合曲線比較尖，不平滑，泛化能力不好），但是在測試資料上損失函式比較大，**準確率較低。

常用的防治過擬合的方法是在模型的損失函式中，需要對模型的引數進行「懲罰」，這樣的話這些引數就不會太大，而越小的引數說明模型越簡單，越簡單的模型則越不容易產生過擬合現象。因此在新增權值懲罰項後，應用梯度下降演算法迭代優化計算時，如果引數theta比較大，則此時的正則項數值也比較大，那麼在下一次更新引數時，引數削減的也比較大。可以使擬合結果看起來更平滑，不至於過擬合。

dropout是hintion最近2年提出的；為了防止模型過擬合，dropout可以作為一種trikc供選擇。在hinton的**摘要中指出，在每個訓練批次中，通過忽略一半的特徵檢測器（讓一半的隱層節點值為0），可以明顯地減少過擬合現象。這種方式可以減少特徵檢測器間的相互作用，檢測器相互作用是指某些檢測器依賴其他檢測器才能發揮作用。

訓練階段：

1.dropout是在標準的bp網路的的結構上，使bp網的隱層啟用值，以一定的比例v變為0，即按照一定比例v，隨機地讓一部分隱層節點失效；在後面benchmark實驗測試時，部分實驗讓隱層節點失效的基礎上，使輸入資料也以一定比例（試驗用20%）是部分輸入資料失效（這個有點像denoising autoencoder），這樣得到了更好的結果。

2.去掉權值懲罰項，取而代之的事，限制權值的範圍，給每個權值設定乙個上限範圍；如果在訓練跟新的過程中，權值超過了這個上限，則把權值設定為這個上限的值（這個上限值得設定作者並沒有說設定多少最好，後面的試驗中作者說這個上限設定為15時，最好；為啥？估計是交叉驗證得出的實驗結論）。

這樣處理，不論權值更新量有多大，權值都不會過大。此外，還可以使演算法使用乙個比較大的學習率，來加快學習速度，從而使演算法在乙個更廣闊的權值空間中搜尋更好的權值，而不用擔心權值過大。

測試階段：

在網路前向傳播到輸出層前時隱含層節點的輸出值都要縮減到（1-v）倍；例如正常的隱層輸出為a，此時需要縮減為a（1-v）。

這裡我的解釋是：假設比例v=0.5，即在訓練階段，以0.5的比例忽略隱層節點；那麼假設隱層有80個節點，每個節點輸出值為1，那麼此時只有40個節點正常工作；也就是說總的輸出為40個1和40個0；輸出總和為40；而在測試階段，由於我們的權值已經訓練完成，此時就不在按照0.5的比例忽略隱層輸出，假設此時每個隱層的輸出還是1，那麼此時總的輸出為80個1，明顯比dropout訓練時輸出大一倍（由於dropout比例為0.5）；所以為了得到和訓練時一樣的輸出結果，就縮減隱層輸出為a（1-v）；即此時輸出80個0.5，總和也為40.這樣就使得測試階段和訓練階段的輸出「一致」了。（個人見解）

dropout可以看做是一種模型平均，所謂模型平均，顧名思義，就是把來自不同模型的估計或者**通過一定的權重平均起來，在一些文獻中也稱為模型組合，它一般包括組合估計和組合**。

dropout中**體現了「不同模型」；這個奧秘就是我們隨機選擇忽略隱層節點，在每個批次的訓練過程中，由於每次隨機忽略的隱層節點都不同，這樣就使每次訓練的網路都是不一樣的，每次訓練都可以單做乙個「新」的模型；此外，隱含節點都是以一定概率隨機出現，因此不能保證每2個隱含節點每次都同時出現，這樣權值的更新不再依賴於有固定關係隱含節點的共同作用，阻止了某些特徵僅僅在其它特定特徵下才有效果的情況。

這樣dropout過程就是乙個非常有效的神經網路模型平均方法，通過訓練大量的不同的網路，來平均**概率。不同的模型在不同的訓練集上訓練（每個批次的訓練資料都是隨機選擇），最後在每個模型用相同的權重來「融合」，介個有點類似boosting演算法。

神經網路之dropout層

深度神經網路技巧之 Dropout

迴圈神經網路的 Dropout

卷積神經網路卷積神經網路啟用層

神經網路之dropout層

深度神經網路技巧之 Dropout

迴圈神經網路的 Dropout

卷積神經網路 卷積神經網路啟用層

相關推薦

卷積神經網路卷積神經網路啟用層