深度學習有效防止過擬合

為了得到一致假設而使假設變得過度複雜稱為過擬合(overfitting)，過擬合表現在訓練好的模型在訓練集上效果很好，但是在測試集上效果差。也就是說模型的泛化能力弱。

在物體分類（object recognition）問題中，資料擴增已經成為一項特殊的有效的技術。物體在影象中的位置、姿態、尺度，整體敏感度等都不會影響分類結果，所以我們就可以通過影象平移、翻轉、縮放、切割等手段將資料庫成倍擴充。或者在語音識別（speech recognition）中，加入噪音也被看做是一種資料擴增方式。

在訓練的過程中，記錄到目前為止最好的驗證正確率(validation accuracy)，當連續10次epoch，validation accuracy沒有達到最佳accuracy，則認為accuracy不再有所提公升，此時就可以停止迭代了。在訓練的過程中，記錄到目前為止最好的驗證正確率(validation accuracy)，當連續10次epoch，validation accuracy沒有達到最佳accuracy，則認為accuracy不再有所提公升，此時就可以停止迭代了。

新增正則化項的方法防止過擬合。損失函式分為經驗風險損失函式和結構風險損失函式，結構風險損失函式就是經驗損失函式+表示模型複雜度的正則化，正則項通常選擇l1或者l2正則化。結構風險損失函式能夠有效地防止過擬合。

l1正則化是指權值向量 w 中各個元素的絕對值之和，通常表示為 w 的1範數，l1正則化可以產生稀疏權值矩陣，即產生乙個稀疏模型，可以用於特徵選擇，一定程度上，l1也可以防止過擬合。

稀疏引數（l1）：引數的稀疏，在一定程度實現了特徵的選擇。稀疏矩陣指有很多元素為0，少數引數為非零值。一般而言，只有少部分特徵對模型有貢獻，大部分特徵對模型沒有貢獻或者貢獻很小，稀疏引數的引入，使得一些特徵對應的引數是0，所以就可以剔除可以將那些沒有用的特徵，從而實現特徵選擇。

l2正則化是指權值向量 w 中各個元素的平方和的平方，通常表示為 w 的2範數，l2正則化可以防止模型過擬合。

更小引數（l2）：越複雜的模型，越是嘗試對所有樣本進行擬合，那麼就會造成在較小的區間中產生較大的波動，這個較大的波動反映出在這個區間內的導數就越大。只有越大的引數才可能產生較大的導數。試想一下，引數大的模型，資料只要偏移一點點，就會對結果造成很大的影響，但是如果引數比較小，資料的偏移對結果的影響力就不會有什麼影響，那麼模型也就能夠適應不同的資料集，也就是泛化能力強，所以一定程度上避免過擬合。

在神經網路中，dropout方法通過修改隱藏層神經元的個數來防止網路的過擬合，也就是通過修改深度網路本身。

在每一批次資料被訓練時，dropout按照給定的概率p隨機剔除一些神經元，只有沒有被剔除也就是被保留下來的神經元的引數被更新。每一批次資料，由於隨機性剔除神經元，使得網路具有一定的稀疏性，從而能減輕了不同特徵之間的協同效應。而且由於每次被剔除的神經元不同，所以整個網路神經元的引數也只是部分被更新，消除減弱了神經元間的聯合適應性，增強了神經網路的泛化能力和魯棒性。dropout只在訓練時使用，作為乙個超引數，然而在測試集時，並不能使用。

當前dropout被廣泛應用於全連線網路，而在卷積層，因為卷積層本身的稀疏性和relu啟用函式的使用，dropout在卷積隱藏層中使用較少。

深度學習有效防止過擬合

深度學習中過擬合與防止過擬合的方法

深度學習中過擬合與防止過擬合的方法

深度學習中過擬合與防止過擬合的方法

深度學習 有效防止過擬合

深度學習中過擬合與防止過擬合的方法

深度學習中過擬合與防止過擬合的方法

深度學習中過擬合與防止過擬合的方法

相關推薦

深度學習有效防止過擬合