機器學習之擬合和過擬合問題

2022-07-16 21:00:22 字數 773 閱讀 3930

過擬合:當某個模型過度的學習訓練資料中的細節和噪音,以至於模型在新的資料上表現很差,我們稱過擬合發生了,通俗點就是:模型在訓練集中測試的準確度遠遠高於在測試集中的準確度

過擬合問題通常發生在變數特徵過多的時候。這種情況下訓練出的方程總是能很好的擬合訓練資料,也就是說,我們的代價函式可能非常接近於0或者就為0,使其擬合只侷限於訓練樣本中,無法很好**其他新的樣本。

欠擬合:在訓練資料和未知資料上表現都很差

解決過擬合問題的方法主要有:

1. 減少特徵數量,通過人工或者演算法選擇哪些特徵有用保留,哪些特徵沒用刪除,但會丟失資訊。

2. 正則化,保留特徵,但減少特徵對應引數的大小,讓每個特徵都對**產生一點影響。

解決欠擬合問題的方法主要有:

1.減少正則化:正則化可以避免過擬合的發生,因此在出現過擬合的情況時,可以通過減少正則化的損失函式來防止過擬合的發生。

2.新增資料量和特徵維度:由於模型可用於學習的資料規模可能不足夠大,導致模型訓練的不夠充分,模型複雜度不夠。還有如果統計的資料資訊中,各個維度數量收集的不夠或者維度資訊中大部分不具有區分樣本的特質。面對這種問題主要方法是收集更多的特質維度,或者增加取樣資訊等方式來擴充資料。

3.增加演算法模型的複雜度:例如很多訓練樣本不是線性可分的,如果單用線性方法來擬合可能無法達到乙個理想的擬合方法,這時候引入非線性方法,如核函式等方法或者更複雜的深度學習等方法來增加模型的複雜度

機器學習過擬合問題

過擬合的定義 在對已知的資料集合進行學習的時候,我們選擇適應度最好的模型最為最終的結果。雖然我們選擇的模型能夠很好的解釋訓練資料集合,但卻不一定能夠很好的解釋測試資料或者其他資料,也就是說這個模型過於精細的刻畫了訓練資料,對於測試資料或者其他新的資料泛華能力不強。發生過擬合的原因 1 使用過於複雜的...

機器學習 過擬合問題

引數估計角度 訓練集是資料生成分布的取樣,訓練集所估計的經驗分布是資料生成分布的近似,由於訓練集的有限性,近似的分布在細節上與資料生成分布存在著差異。過擬合是指模型錯把訓練集自身的細節,當作資料生成分布的一般性質來學習,從而導致模型泛化效能的降低。訓練集上的經驗誤差在下降 偏差小 驗證集上的誤差 泛...

機器學習之欠擬合和過擬合(一)

1.欠擬合 underfitting 與過擬合 overfitting 將中位數隨年齡的變化繪製成散點圖,如圖2 由圖2中的散點可知,先開始身高隨年齡幾乎成一條直線關係,後來增長率逐漸下降。如果我們採用線性函式取擬合,這顯然是不合理的 線性函式的增長率不會發生變化 如果我們用乙個多項式函式去擬合,雖...