過擬合解決方案

2021-08-13 21:29:55 字數 556 閱讀 1287

方法一:儘量減少選取變數的數量

具體而言,我們可以人工檢查每一項變數,並以此來確定哪些變數更為重要,然後,保留那些更為重要的特徵變數。至於,哪些變數應該捨棄,我們以後在討論,這會涉及到模型選擇演算法,這種演算法是可以自動選擇採用哪些特徵變數,自動捨棄不需要的變數。這類做法非常有效,但是其缺點是當你捨棄一部分特徵變數時,你也捨棄了問題中的一些資訊。例如,也許所有的特徵變數對於**房價都是有用的,我們實際上並不想捨棄一些資訊或者說捨棄這些特徵變數。

方法二:正則化

正則化中我們將保留所有的特徵變數,但是會減小特徵變數的數量級(引數數值的大小θ(j))。

這個方法非常有效,當我們有很多特徵變數時,其中每乙個變數都能對**產生一點影響。正如我們在房價**的例子中看到的那樣,我們可以有很多特徵變數,其中每乙個變數都是有用的,因此我們不希望把它們刪掉,這就導致了正則化概念的發生。

接下來我們會討論怎樣應用正則化和什麼叫做正則化均值,然後將開始討論怎樣使用正則化來使學習演算法正常工作,並避免過擬合。

過擬合(原因 解決方案 原理)

標準定義 給定乙個假設空間h,乙個假設h屬於h,如果存在其他的假設h 屬於h,使得在訓練樣例上h的錯誤率比h 小,但在整個例項分布上h 比h的錯誤率小,那麼就說假設h過度擬合訓練資料。1 建模樣本抽取錯誤,包括 但不限於 樣本數量太少,抽樣方法錯誤,抽樣時沒有足夠正確考慮業務場景或業務特點,等等導致...

過擬合問題和解決方案

模型越複雜,模型對訓練集的測試效果越好,但對測試集的測試效果很差,此時稱為過擬合。如樣本是9個點,當多項式回歸是2次或3次時,擬合效果不錯但仍有誤差 當多項式是9次時,可以計算出一條曲線完美通過所有樣本點,但這種方式顯然把樣本的噪音全部擬合出來了,模型放到訓練集時效果很差。對此,有正則化 加懲罰項 ...

過擬合解決方案之正則化

1.過擬合問題 對於過擬合問題,通常原因是模型選擇太過複雜,也有可能是訓練資料太少。對於模型太複雜的情況,我們一般有如下考慮 一是通過分析刪除部分特徵 比如重複多餘的特徵或者對輸出值貢獻不太大的特徵 但是這樣有可能會損失一部分資訊。所以,我們可以通過正則化的方法來降低引數值,從而避免過擬合問題。對於...