機器學習中資料量多少與模型過擬合欠擬合之間的關係

1、從模型方面考慮。舉例說明：本身問題是二次的，用線性模型處理問題就是欠擬合，用三次及更高次處理問題就是過擬合。但是這裡未考慮資料量的多少，只是針對本身模型階次的考慮。而且現實問題，越強大的模型是很難確定模型複雜度的。

2、處理相同的問題時，在資料量多的情況，可以用相對複雜的模型處理問題，在資料量少的情況下，可以用相對簡單的模型處理問題。過擬合：當資料量太少時，模型無法完成充分的訓練，模型過度擬合用於訓練的少量資料的資訊，對測試資料效果不好，泛化能力差；欠擬合：資料量很多，但是模型太簡單沒有充分利用資料資訊模型不夠準確。

3、欠擬合：表現為模型特徵維度過少，引數值較小等情況，此時模型過於簡單，但是資料量很大，所用模型沒有充分學習大量資料提供的資訊，模型準確性差；

解決方法：（1）增加特徵維度；，增大引數值，換用更為複雜的模型等。

過擬合：表現為特徵維度過多，引數值過大，此時模型假設過於複雜，但是訓練資料過少，雜訊過多，導致擬合的函式完美的擬合訓練集，但對新資料的測試集**結果差，泛化能力差。

解決方法：（1）減少特徵維度；（2）正則化，降低某些過大的引數值。（3）在神經網路中dropout, 隨機刪減一些神經元。

綜上所屬：可以總結為（1）當模型在訓練集上準確性一般，但是在測試集上表現也尚可，即泛化能力好時為欠擬合；（2）當模型在測試集上表現不好，泛化能力差，但是對於訓練資料準確性高時表現為過擬合；（3）兩者皆不好時考慮進一步資料與處理和特徵選擇或者換模型；（4）兩者都好時模型能夠較好的擬合現有資料，皆大歡喜。

機器學習中資料量多少與模型過擬合欠擬合之間的關係

機器學習演算法與Python學習資料探勘過關40題

機器學習正負樣本資料量不平衡處理方法

機器學習演算法中的過擬合與欠擬合

機器學習中資料量多少與模型過擬合欠擬合之間的關係

機器學習演算法與Python學習 資料探勘過關40題

機器學習 正負樣本資料量不平衡處理方法

機器學習演算法中的過擬合與欠擬合

相關推薦

機器學習演算法與Python學習資料探勘過關40題

機器學習正負樣本資料量不平衡處理方法