深度學習 有效防止過擬合

2021-10-10 06:43:08 字數 1686 閱讀 9982

為了得到一致假設而使假設變得過度複雜稱為過擬合(overfitting),過擬合表現在訓練好的模型在訓練集上效果很好,但是在測試集上效果差。也就是說模型的泛化能力弱。

在物體分類(object recognition)問題中,資料擴增已經成為一項特殊的有效的技術。物體在影象中的位置、姿態、尺度,整體敏感度等都不會影響分類結果,所以我們就可以通過影象平移、翻轉、縮放、切割等手段將資料庫成倍擴充。或者在語音識別(speech recognition)中,加入噪音也被看做是一種資料擴增方式。

在訓練的過程中,記錄到目前為止最好的驗證正確率(validation accuracy),當連續10次epoch,validation accuracy沒有達到最佳accuracy,則認為accuracy不再有所提公升,此時就可以停止迭代了。在訓練的過程中,記錄到目前為止最好的驗證正確率(validation accuracy),當連續10次epoch,validation accuracy沒有達到最佳accuracy,則認為accuracy不再有所提公升,此時就可以停止迭代了。

新增正則化項的方法防止過擬合。損失函式分為經驗風險損失函式和結構風險損失函式,結構風險損失函式就是經驗損失函式+表示模型複雜度的正則化,正則項通常選擇l1或者l2正則化。結構風險損失函式能夠有效地防止過擬合。

l1正則化是指權值向量 w 中各個元素的絕對值之和,通常表示為 w 的1範數,l1正則化可以產生稀疏權值矩陣,即產生乙個稀疏模型,可以用於特徵選擇,一定程度上,l1也可以防止過擬合。

稀疏引數(l1):引數的稀疏,在一定程度實現了特徵的選擇。稀疏矩陣指有很多元素為0,少數引數為非零值。一般而言,只有少部分特徵對模型有貢獻,大部分特徵對模型沒有貢獻或者貢獻很小,稀疏引數的引入,使得一些特徵對應的引數是0,所以就可以剔除可以將那些沒有用的特徵從而實現特徵選擇

l2正則化是指權值向量 w 中各個元素的平方和的平方,通常表示為 w 的2範數,l2正則化可以防止模型過擬合。

更小引數(l2):越複雜的模型,越是嘗試對所有樣本進行擬合,那麼就會造成在較小的區間中產生較大的波動,這個較大的波動反映出在這個區間內的導數就越大。只有越大的引數才可能產生較大的導數。試想一下,引數大的模型,資料只要偏移一點點,就會對結果造成很大的影響,但是如果引數比較小,資料的偏移對結果的影響力就不會有什麼影響,那麼模型也就能夠適應不同的資料集,也就是泛化能力強,所以一定程度上避免過擬合

在神經網路中,dropout方法通過修改隱藏層神經元的個數來防止網路的過擬合,也就是通過修改深度網路本身。

在每一批次資料被訓練時,dropout按照給定的概率p隨機剔除一些神經元,只有沒有被剔除也就是被保留下來的神經元的引數被更新。每一批次資料,由於隨機性剔除神經元,使得網路具有一定的稀疏性,從而能減輕了不同特徵之間的協同效應。而且由於每次被剔除的神經元不同,所以整個網路神經元的引數也只是部分被更新,消除減弱了神經元間的聯合適應性,增強了神經網路的泛化能力和魯棒性dropout只在訓練時使用,作為乙個超引數,然而在測試集時,並不能使用。

當前dropout被廣泛應用於全連線網路,而在卷積層,因為卷積層本身的稀疏性和relu啟用函式的使用,dropout在卷積隱藏層中使用較少。

深度學習中過擬合與防止過擬合的方法

1.什麼是過擬合?過擬合 overfitting 是指在模型引數擬合過程中的問題,由於訓練資料報含抽樣誤差,訓練時,複雜的模型將抽樣誤差也考慮在內,將抽樣誤差也進行了很好的擬合。具體表現就是最終模型在訓練集上效果好 在測試集上效果差。模型泛化能力弱。2.過擬合產生的原因?1 在對模型進行訓練時,有可...

深度學習中過擬合與防止過擬合的方法

過擬合 overfitting 是指在模型引數擬合過程中的問題,由於訓練資料報含抽樣誤差,訓練時,複雜的模型將抽樣誤差也考慮在內,將抽樣誤差也進行了很好的擬合。具體表現就是最終模型在訓練集上效果好,在測試集上效果差,模型泛化能力弱。1 在對模型進行訓練時,有可能遇到訓練資料不夠,即訓練資料無法對整個...

深度學習中過擬合與防止過擬合的方法

過擬合 overfitting 是指在模型引數擬合過程中的問題,由於訓練資料報含抽樣誤差,訓練時,複雜的模型將抽樣誤差也考慮在內,將抽樣誤差也進行了很好的擬合。具體表現就是最終模型在訓練集上效果好,在測試集上效果差,模型泛化能力弱。抽樣誤差是指由於隨機抽樣的偶然因素使樣本各單位的結構不足以代表總體各...