關於過擬合的更多思考

過擬合在表現上是：低偏差高方差在訓練集上的偏差低在測試集上的偏差比較高

引起過擬合的原因：

1.從模型的複雜度來說：

①模型過於複雜

②資料比較少，導致模型學習的過程中，只學習到了很少的資料構成的模型，導致模型學簡單了，不能在測試集上有很好的表現

2.從資料的的角度來說

①資料中的雜訊比較多，使得模型學到的很複雜（模型本身就來擬合資料，但是有雜訊，使得資料的規律性大大降低，只能用更複雜的模型來學習，來達到訓練集中較低的偏差），從而導致過擬合

②訓練集和測試集的資料分布不同，這樣就很容易導致過擬合（模型學習的是訓練集的分布，然後用來**不同分布的測試集，肯定不准）

那麼如何分析出過擬合是因為資料不足還是模型複雜度不夠呢？

控制變數法！！！！（我猜的）

關於樣本數量，可以繪製學習曲線，可以逐步增加資料，如果最終的學習曲線並沒有收斂，說明資料的量是有問題的

當模型複雜度比較大，從而造成過擬合

欠擬合的學習曲線

關於過擬合的通俗介紹

簡單一句話，過擬合就是在訓練集上表現比較好，在測試集上表現很差的一種現象。如下圖所示圖三過度的擬合了訓練資料，而沒有考慮到模型的泛化能力，在訓練集上的準確率和開發集上的準確率畫在乙個圖上如下引用來自吳恩達課程。發生過擬合的主要原因主要有下面三點 1.資料有雜訊 2.訓練資料太少，有限的訓練資料 ...

關於怎麼解決過擬合問題

該博文分析了模型訓練過程中三種loss不下降的情況，並給出了一些解決的思路。1 網路層沒有初始化引數 2 超引數設定不合理 2.1 訓練的epoch太少看到的只是區域性情況，最終要的其實是整體收斂就行，也許訓練100 1000 10000試試？2.2 學習率過高或者過低？合適的學習率可以保證每輪完...

關於車輛屬性過擬合問題討論

屬性過擬合，原因可能為不同的屬性難學程度不一樣，討論後結果如下 1.如果有的屬性訓練20個epoch就達到好的結果，之後開始過擬合，而同時其他的屬性要訓練到100個epoch，此時可以在20個epoch停下。至於如何判斷是不是20個epoch或者如何判斷要停下，需要設計乙個停下的機制。2.資料集很重...

關於過擬合的更多思考

關於過擬合的通俗介紹

關於怎麼解決過擬合問題

關於車輛屬性過擬合問題討論

相關推薦