機器學習 過擬合問題

2021-09-25 05:59:45 字數 1283 閱讀 8933

引數估計角度

訓練集是資料生成分布的取樣,訓練集所估計的經驗分布是資料生成分布的近似,由於訓練集的有限性,近似的分布在細節上與資料生成分布存在著差異。過擬合是指模型錯把訓練集自身的細節,當作資料生成分布的一般性質來學習,從而導致模型泛化效能的降低。

訓練集上的經驗誤差在下降(偏差小),驗證集上的誤差(泛化誤差)在上公升

本文從資料、模型、引數估計方法三個角度來描述防止過擬合的方法

特徵維度考慮:可以對進行特徵降維(如無監督降維pca,有監督降維lda)、特徵選擇(過濾式relief、包裹式las veags、嵌入式l1,l2,決策樹)

資料增強:資料加噪音

這部分從線性模型、決策樹與整合、深度學習三個方面來描述。

線性模型

感知機:感知機針對二分類問題,沒有什麼好的策略,應該從資料角度考慮。

lr : lr+l1(lasso回歸); lr+l2(ridge回歸); lr+l1+l2(elastic回歸)

logistic regression: 加權重正則化

svm:簡單核函式(如linear kernel), 減小超引數c(c調節經驗損失hinge loss的重要性)

決策樹與整合

決策樹(預減枝+後減枝)

boosting整合關注於減低偏差:樹簡單點,基學習器數量應該少一些

bagging整合關注於減低方差:單模型簡單點,基學習器可以多一些

深度學習

資料角度

資料增強: 亮度、對比度、色溫、遮擋、resize_and_random_crop、加噪音

網路結構角度,降低模型複雜度

網路層數、隱藏單元少一點

殘差結構(讓網路自適應深度)

dropout層(相當於多個半數網路的bagging整合)

損失函式角度

權重正則化; 自定義鄰域正則化損失(過擬合本質上測試集上泛化性差,可以把領域約束資訊新增到損失或者模型中去,比如遮擋+attention 機制)

訓練角度

早停(如果驗證集損失不再下降,就早停)

引數估計的方法有矩估計、極大似然估計、貝葉斯估計。機器學習中使用最多的是極大似然估計與貝葉斯估計。最大似然估計認為引數是確定的乙個值,貝葉斯估計假設引數服從乙個先驗分布,並計算引數的後驗分布,然後基於引數的後驗分布來**。由於考慮了引數的各種可能,所以在小資料集上貝葉斯估計效果通常比最大似然估計好。但是貝葉斯估計計算複雜,在資料集很大時會帶來很大的計算代價。貝葉斯估計與最大似然估計的折中為引數的最大後驗概率估計,可以得到線性回歸+l2權重正則化可以看作是基於高斯先驗的最大後驗概率估計. 綜上,從引數估計角度可以考慮引數的最大後驗概率估計。

機器學習過擬合問題

過擬合的定義 在對已知的資料集合進行學習的時候,我們選擇適應度最好的模型最為最終的結果。雖然我們選擇的模型能夠很好的解釋訓練資料集合,但卻不一定能夠很好的解釋測試資料或者其他資料,也就是說這個模型過於精細的刻畫了訓練資料,對於測試資料或者其他新的資料泛華能力不強。發生過擬合的原因 1 使用過於複雜的...

機器學習之擬合和過擬合問題

過擬合 當某個模型過度的學習訓練資料中的細節和噪音,以至於模型在新的資料上表現很差,我們稱過擬合發生了,通俗點就是 模型在訓練集中測試的準確度遠遠高於在測試集中的準確度。過擬合問題通常發生在變數特徵過多的時候。這種情況下訓練出的方程總是能很好的擬合訓練資料,也就是說,我們的代價函式可能非常接近於0或...

機器學習中的過擬合問題

最近研究一下機器學習中的過擬合問題,看了很多大牛們的資料,寫的都不錯,我這裡面主要是整理,開始正文。過擬合 overfitting 是指在模型引數擬合過程中的問題,由於訓練資料報含抽樣誤差,訓練時,複雜的模型將抽樣誤差也考慮在內,將抽樣誤差也進行了很好的擬合。具體表現就是最終模型在訓練集上效果好 在...