擬合和過擬合

2022-08-19 01:48:10 字數 2855 閱讀 5712

$(x^,y^)$   example

$h_(x^)=$

損失函式

$j(\theta) = 1/2sum(h(x_^))$

欠擬合和過擬合

乙個線性模型 擬合房價曲線

$\theta_+\theta_x_+......$ 多個項進行擬合

對房價曲線進行擬合 

線性擬合  欠擬合 underfitting  $\theta_ + \thata_x_$  

二次擬合 

多次項的擬合   過擬合  overfitting

引數學習演算法引數學習演算法是一類有固定數目,引數的用來進行資料擬合的演算法,線性回歸即是此類

非引數學習演算法則是一類引數數目隨資料集增大而變多(一般是線性增大)的演算法:

區域性加權演算法(loess)

區域性加權回歸演算法是對線性回歸的擴充套件,當目標假設是線性模型時,使用線性回歸自然能擬合的很

當我們在**乙個點的值時,我們選擇和這個點相近的點而不是全部的點做線性回歸。基於這個思

想,就有了區域性加權回歸演算法

,w(i其中)是權值,它的作用在於根據要**的點與資料集中的點的距離來

為資料集中的點賦權值,當某點距離待**點較遠時,其權重較小,否則較大。

乙個較好的函式如下:

離得遠的點貢獻比較小 離得近的點貢獻比較大  注意這和高斯分布沒有關係

該函式被稱為指數衰減函式。其中,\tao被稱為波長引數,它控制了權值隨距

離下降的速度

區域性加權回歸  非引數學習演算法  我們不考慮是否建模 

怎麼確定波長引數?尤其的重要.

如果資料集特別大 非引數演算法 的複雜度非常高

線性回歸的概率解釋

接下來對線性回歸的最小二乘法的合理性做了概率解釋,即為什麼選擇平方

函式作為目標函式會使得效果比較好?

假設1

誤差項可以看作是隨機雜訊 忘了建模的引數

我假設誤差項 服從 高斯分布 均值為0

那麼假設二為何會成立呢?這是因

為影響誤差的因素有很多,這些因素都是隨機分布,根據中心極限定理(central

limit thoery),即許多獨立隨機變數的和趨向於正態分佈,我們可以得到假設二

誤差為什麼服從高斯分布  根據中心極限定理  通常是服從高斯分布  

誤差由許多效應組成

概率密度函式

加入引數項

這也表示,當給定引數

過擬合和欠擬合

嘗試不同的模型 既然有一種可靠的方法來測量模型精度,那麼可以嘗試使用其他模型,並檢視哪種模型可以提供最佳 但是對模型有什麼選擇?可以在scikit learn的文件中看到決策樹模型有很多選項 比您長期想要或需要的更多 最重要的選項決定了樹的深度。回想一下這個微課程的第一課,樹的深度是衡量它在進行 之...

欠擬合和過擬合

解決欠擬合問題,可以從以下三個方面入手 1 增加特徵項 在大多數情況下出現過擬合是因為沒有準確把握資料的主要特徵,可以嘗試在模型中加入更多的和原始資料有重要相關性的特徵來尋連搭建的模型,著牙嗎嗯得到的模型可能會有更好的泛化能力。2 構造複雜的多項式 3 減少正則化引數 解決過擬合問題 1 增大訓練的...

過擬合和欠擬合

乙個假設在訓練資料上,能夠獲得比其他假設更好的擬合,但是在訓練資料外的資料集上卻不能很好的擬合資料,此事認為這個模型出現了過擬合現象 模型過於複雜 原因 原始特徵過多,存在一些嘈雜特徵,模型過於複雜是因為模型嘗試去兼顧各個測試資料點 解決辦法 乙個假設在訓練集上不能獲得更好的擬合,但是在訓練資料集以...