什麼是過擬合問題,怎麼樣避免

正則化regularization

為了和正規方程(normal equation)裡」正規」區分開來，這裡regularization都譯作「正則化」，有些地方也用的是「正規化」。以下內容來自wikipedia)：

正則化是指通過引入額外新資訊來解決機器學習中過擬合問題的一種方法。這種額外資訊通常的形式是模型複雜性帶來的懲罰度。正則化的一種理論解釋是它試圖引入奧卡姆剃刀原則。而從貝葉斯的觀點來看，正則化則是在模型引數上引入了某種先驗的分布。

機器學習中最常見的正則化是l1和l2正則化。正則化是在學習演算法的損失(成本)函式e(x,y)的基礎上在加上一項正則化引數項：e(x,y)+α|w|，其中w是引數向量，α是正則項的引數值，需要在實際訓練中調整。正則化在許多模型中都適用，對於線性回歸模型來說，採用l1正則化的模型叫作lasso回歸，採用l2的叫作ridge回歸。對於logistic回歸，神經網路，支援向量機，隨機條件場和一些矩陣分解方法，正則化也適用。在神經網路中，l2正則化又叫作「權重衰減」(weight decay)。l1正則化能產生稀疏模型，因此在特徵選擇中很有用，但是l1正規化不可微，所以需要在學習演算法中修改，特別是基於梯度下降的演算法。

過擬合問題

欠擬合(也叫做高偏差(high bias))是指不能很好地擬合資料，一般是因為模型函式太簡單或者特徵較少。

過擬合問題是指過於完美擬合了訓練集資料，而對新的樣本失去了一般性，不能有效**新樣本，這個問題也叫做高方差(high variances)。造成過擬合的原因可能是特徵量太多或者模型函式過於複雜。線性回歸和logistic回歸都存在欠擬合和過擬合的問題。

要解決過擬合的問題，通常有兩種方法：

1.減少特徵數量

手動篩選特徵

採用特徵篩選演算法

2.正則化

保留所有的特徵，但盡可能使引數θj盡量小。

正則化在很多特徵變數對目標值只有很小影響的情況下非常有用。

什麼是過擬合問題,怎麼樣避免

過擬合問題，怎麼樣解決

什麼是過擬合？

什麼是過擬合

什麼是過擬合問題,怎麼樣避免

過擬合問題，怎麼樣解決

什麼是過擬合？

什麼是過擬合

相關推薦