機器學習中的過擬合及解決方法

模型的誤差是偏差和方差相加而成的。

偏差（又稱訓練誤差，經驗誤差）反映了模型在訓練集樣本上的期望輸出與真實結果之間的差距，即模型本身的精確度，反映的是模型本身的擬合能力。偏差過高反映了模型存在欠擬合現象，表明模型過於簡單，沒有很好的擬合訓練集變數之間的特徵，需要進一步提公升模型的複雜度。

方差（又稱泛化誤差）反映了模型在不同的訓練集下得到的結果與真實結果之間誤差的波動情況，即模型的穩定性。由於訓練集中會存在雜訊，並且該雜訊不具有通用性，不同的訓練集中會有不同的雜訊，當模型過於複雜時，也會大量學習訓練集中的雜訊，最終導致模型的泛華能力變差，這就是過擬合產生的原因。

解決過擬合的兩條主線：一是增大資料集，二是降低模型的複雜度（根據vc維理論可知）。一般來說擴充套件資料集是比較難的，而且資料集大，模型複雜度高的時候即使能獲得好的泛化結果，也會增大計算量。所以常見的方式都是以降低模型的複雜度為主，接下來看看有哪些常見的方法可以自適應地降低模型的複雜度。

減低模型複雜度的方法見

[1]徐麟.資料分析師求職面試指南.中國工信出版集團