機器學習（十六）欠擬合與過擬合

問題：訓練資料訓練的很好啊，誤差也不大，為什麼在測試集上面有問題呢？

當演算法在某個資料集當**現這種情況，可能就出現了過擬合現象。

那麼是什麼原因導致模型複雜？線性回歸進行訓練學習的時候變成模型會變得複雜，這裡就對應前面再說的線性回歸的兩種關係，非線性關係的資料，也就是存在很多無用的特徵或者現實中的事物特徵跟目標值的關係並不是簡單的線性關係。

過擬合原因以及解決辦法

在這裡針對回歸，我們選擇了正則化。但是對於其他機器學習演算法如分類演算法來說也會出現這樣的問題，除了一些演算法本身作用之外（決策樹、神經網路），我們更多的也是去自己做特徵選擇，包括之前說的刪除、合併一些特徵

如何解決？

在學習的時候，資料提供的特徵有些影響模型複雜度或者這個特徵的資料點異常較多，所以演算法在學習的時候儘量減少這個特徵的影響（甚至刪除某個特徵的影響），這就是正則化

注：調整時候，演算法並不知道某個特徵影響，而是去調整引數得出優化的結果

l1正則化

拓展-原理(了解)

線性回歸的損失函式用最小二乘法，等價於當**值與真實值的誤差滿足正態分佈時的極大似然估計；嶺回歸的損失函式，是最小二乘法+l2範數，等價於當**值與真實值的誤差滿足正態分佈，且權重值也滿足正態分佈（先驗分布）時的最大後驗估計；lasso的損失函式，是最小二乘法+l1範數，等價於當**值與真實值的誤差滿足正態分佈，且權重值滿足拉普拉斯分布（先驗分布）時的最大後驗估計

機器學習（十六）欠擬合與過擬合

機器學習（13）欠擬合與過擬合

機器學習基礎過擬合，欠擬合

欠擬合與過擬合

機器學習（十六）欠擬合與過擬合

機器學習（13）欠擬合與過擬合

機器學習基礎 過擬合，欠擬合

欠擬合與過擬合

相關推薦

機器學習基礎過擬合，欠擬合