回歸分析中產生過擬合的原因

2021-10-23 05:24:49 字數 1300 閱讀 5114

使用一次函式 θ0+

θ1x~\theta_0+\theta_1x~

θ0​+θ1

​x來**時,從圖中可以看出這不是乙個很好的模型,沒有很好的擬合訓練集,導致出現"欠擬合"問題。

使用二次函式θ0+

θ1x+

θ2x2

~\theta_0+\theta_1x+\theta_2x^2~

θ0​+θ1

​x+θ

2​x2

來擬合資料集,此時的擬合效果很好,沒有出現問題。

本次使用四次函式θ0+

θ1x+

θ2x2

+θ3x

3+θ4

x4~\theta_0+\theta_1x+\theta_2x^2~+\theta_3x^3+\theta_4x^4

θ0​+θ1

​x+θ

2​x2

+θ3​

x3+θ

4​x4

來擬合資料集,此時可以得到一條如圖中所示的曲線,這似乎很好的擬合了訓練集,它通過了所有的資料點,但這其實並不是乙個好的**模型,這就是"過擬合"問題。

如果我們擬合乙個高階多項式,那這個假設函式能擬合幾乎所有的資料,這就面臨函式太過龐大,變數太多的問題,此時我們沒有足夠的資料來約束它,來獲得乙個好的假設函式。

過擬合問題會在變數過多的時候出現,而損失函式可能非常接近於0,它想方設法的擬合訓練集中的所有資料,導致它無法泛化到新樣本中去,不能**樣本的**。

1、儘量減少選取變數的數量,通過人工選擇應該留下的特徵變數,而模型選擇演算法就可以自動選擇哪些特徵變數要保留,哪些要捨棄。

優點:效率很好

缺點:捨棄一部分特徵變數的同時也捨棄了關於問題的一部分資訊。

2、正則化懲罰,保留了所有的特徵變數,但減少了量級或引數θ

j~~\theta_j

θj​的大小。

優點:效果非常好,使用了所有的特徵變數,每個特徵變數都能對**的 y 值產生一點影響。

大白話解釋模型產生過擬合的原因!

今天郭江師兄在實驗室講解了全體機器學習會第一章的知識,大家討論了一下過擬合的知識,這裡我根據自己的理解,整理了一下原因,力求同最通俗的語言來描述,可能不是太嚴謹,但是總體思想能保證正確!一 過擬合的概念?首先我們來解釋一下過擬合的概念?過擬合就是訓練出來的模型在訓練集上表現很好,但是在測試集上表現較...

不容易產生過擬合的演算法

首先,svm有個l2正則項,在目標函式中加入這個對模型的規模進行了限制。l2正則為什麼能保證控制過擬合,這裡面就有個哲學思想,叫做奧卡姆剃刀法則,簡單來說這個想法就是 能簡單說的話,不要複雜的說 l2正則項就能代表模型的複雜度,根據奧卡姆,如果同樣效果那麼越簡單的模型泛化效果越好。所以最優化過程中盡...

模型訓練過程中產生NAN的原因分析

在模型的訓練過程中發現,有時在經過多輪訓練後loss會突然變為nan。loss變為nan也就使權重更新後的網路裡的引數變為了nan,這樣就使整個訓練無法再進行下去了。從除錯情況來看nan出現的順序是 loss的梯度 網路的引數 的結果 loss本身。注意,第乙個出現問題的應該是loss的梯度。一般s...