深層神經網路的正則化問題

1. 什麼是正則化

我們知道，在使用神經網路進行分類時，有時會出現「訓練集的分類效果很好而測試集的分類效果卻不理想」這種現象。這種現象稱之為「過擬合」，「正則化」的提出就是為了解決這個問題。那麼究竟什麼才是「正則化」呢？首先讓我們來看下面兩個公式：

（1）式是我們之前定義的代價函式，（2）式相對於（1）式而言增加了右邊一項，增加的那項稱之為「l2正則項」。那麼「l2正則項」是如何避免模型「過擬合」呢？下面我們來簡單分析一下：我們在訓練模型時，為了降低代價函式往往會盡可能擬合訓練集，這就使得我們訓練的模型變得複雜，而過於複雜的模型就不能很好的**未知資料（也就會出現「過擬合」現象），而「l2正則項」的出現就會制約著模型變得複雜（左邊項的值減少，模型變複雜就會使得右邊項的值增加），因此正則化可以解決「過擬合」問題。

2. 常見「正則項」

除了上面提及的「l2正則項」，還有一種常用的正則化方法——dropout正則化。dropout正則化的工作原理是：在每一次迭代中，通過設定keep_prob這一變數來隨機刪除（設定對應權值為0）若干個神經元，刪除的這些神經元對網路沒有作用，從而可以簡化網路。在使用dropout正則化時，有以下幾點需要注意：

3. 實驗比較

借助某一資料集，來比較未使用正則項、使用l2正則項和使用dropout這三種模型比較。實驗結果如下表所示：

model

train accuracy

test accuracy

3-layer nn without regularization

95%91.5%

3-layer nn with l2-regularization

94%93%

3-layer nn with dropout

93%95%

通過實驗結果來看，正規化會有損訓練集的表現，這是因為它限制了網路過度訓練集的能力。但是由於它最終提供了更好的測試準確性，因此它是有用的。

4. 小結

深層神經網路的正則化問題

神經網路的認識（二）深層神經網路

神經網路的正則化

Tensorflow 深層神經網路

深層神經網路的正則化問題

神經網路的認識（二）深層神經網路

神經網路的正則化

Tensorflow 深層神經網路

相關推薦