機器學習中資料量多少與模型過擬合欠擬合之間的關係

2022-05-07 09:30:07 字數 869 閱讀 3758

1、從模型方面考慮。舉例說明:本身問題是二次的,用線性模型處理問題就是欠擬合,用三次及更高次處理問題就是過擬合。但是這裡未考慮資料量的多少,只是針對本身模型階次的考慮。而且現實問題,越強大的模型是很難確定模型複雜度的。

2、處理相同的問題時,在資料量多的情況,可以用相對複雜的模型處理問題,在資料量少的情況下,可以用相對簡單的模型處理問題。過擬合:當資料量太少時,模型無法完成充分的訓練,模型過度擬合用於訓練的少量資料的資訊,對測試資料效果不好,泛化能力差;欠擬合:資料量很多,但是模型太簡單沒有充分利用資料資訊模型不夠準確。

3、欠擬合:表現為模型特徵維度過少,引數值較小等情況,此時模型過於簡單但是資料量很大,所用模型沒有充分學習大量資料提供的資訊,模型準確性差; 

解決方法:(1)增加特徵維度;,增大引數值,換用更為複雜的模型等。

過擬合:表現為特徵維度過多,引數值過大,此時模型假設過於複雜,但是訓練資料過少,雜訊過多,導致擬合的函式完美的擬合訓練集,但對新資料的測試集**結果差,泛化能力差。

解決方法:(1)減少特徵維度;(2)正則化,降低某些過大的引數值。(3)在神經網路中dropout, 隨機刪減一些神經元。

綜上所屬:可以總結為(1)當模型在訓練集上準確性一般,但是在測試集上表現也尚可,即泛化能力好時為欠擬合;(2)當模型在測試集上表現不好,泛化能力差,但是對於訓練資料準確性高時表現為過擬合;(3)兩者皆不好時考慮進一步資料與處理和特徵選擇或者換模型;(4)兩者都好時模型能夠較好的擬合現有資料,皆大歡喜。

機器學習演算法與Python學習 資料探勘過關40題

1.某超市研究銷售紀錄資料後發現,買啤酒的人很大概率也會購買尿布,這種屬於資料探勘的哪類問題?a.關聯規則發現 b.聚類 c.分類 d.自然語言處理 2.以下兩種描述分別對應哪兩種對分類演算法的評價標準?a 警察抓小偷,描述警察抓的人中有多少個是小偷的標準。b 描述有多少比例的小偷給警察抓了的標準。...

機器學習 正負樣本資料量不平衡處理方法

無偏取樣 意味著真實樣本總體的類別比例在訓練集中得以保持。在訓練集中正反例數目不同時,令 若再縮放 再平衡 再縮放思想雖然簡單,但是實際操作卻不平凡,主要因為無偏取樣的假設往往不成立,就是說我們未必能有效的基於訓練集觀測機率來推斷出真實機率。現有技術上大體上有三類做法 欠取樣 下取樣 過取樣 上取樣...

機器學習演算法中的過擬合與欠擬合

在機器學習表現不佳的原因要麼是過度擬合或欠擬合資料。機器學習中的逼近目標函式過程 監督式機器學習通常理解為逼近乙個目標函式 f f 此函式對映輸入變數 x 到輸出變數 y y f x y f x 這種特性描述可以用於定義分類和 問題和機器學習演算法的領域。從訓練資料中學習目標函式的過程中,我們必須考...