第三課欠擬合與過擬合的概念

1.區域性權重線性回歸（自譯）

—–locally weighted linear regression

θ :

其中

個人認為，該演算法通過對區域性取樣本點，達到通過區域性的線性來擬合非線性的效果，其中權重函式相當於乙個截斷函式，寬度由頻寬引數τ2

控制，這裡權重函式可以取其他合適的函式。該方法計算量大，對於每乙個**點需要單獨計算引數。

該方法是乙個non-parametric演算法：對於每乙個新的**點，我們需要保留原始訓練集，重新訓練。

parametric演算法：一次訓練後，可以得到固定的引數，訓練集即可以丟棄。

對於線性回歸的概率解釋

—–probabilistic interpretation

在頻率學家的認知中，

θ 是事物固有的引數，是乙個常量，而我們需要**的目標值，是乙個隨機變數，該變數的概率密度函式由引數

θ 表示，由於中心極限定理，我們通常認為該變數概率密度函式為呈高斯狀，如下式：

即定義可能性函式likelihood function：

根據最大可能性mamum likelihood原則，我們所選擇的

θ 應該在定義域中使可能性函式值最大.

為了方便推導計算，對可能性函式取對數log，結果如下：

可見該種思路得到的結果與最小二乘方演算法得到的最終形式相同，對上式進行分析，高斯函式的方差τ2

對結果沒有影響，這點會在後續的課程中進行討論。

對於二分類問題，之前的線性回歸方法不太適用，因為目標函式值是離散的。因此我們引入邏輯函式logistic or sigmoid function:

概率密度函式可寫為

可能性函式推導如下：

θ 使用梯度上公升法：

注意，該演算法與lms演算法並不相同，這裡h函式是乙個非線性函式，不過奇妙的是最後我們使用了相同的更新演算法，即梯度下降與梯度上公升。這背後的原因將會在gml模型中得到深入的分析。

補充：感知器演算法

對邏輯函式進行修正：

然後使用梯度上公升計算引數

這便是感知器演算法。

請注意，感知器演算法不同於邏輯回歸演算法和最小均方差演算法，它不能找到合理地概率論的解釋，或者像最大可能性函式一樣推導感知器。

第三集欠擬合與過擬合的概念

大綱 1 線性回歸 1.1區域性加權回歸 2 邏輯回歸 logistic regression 2.1感知器演算法在一定的資料量下，特徵值過多可能會引起過擬合現象 overfitting 相反，特徵值過少可能會引起欠擬合現象 underfitting 解決辦法 1 特徵學習演算法 2 非參學習引...

機器學習筆記三欠擬合與過擬合的概念

注以下所有內容均來自網易公開課andrew ng的機器學習課程本課要講的內容包括 1 locally weighted regression 區域性加權回歸 2 probabilistic interpretation 概率解釋 3 logistic regression 邏輯回歸 4 per...

偏差與方差，欠擬合與過擬合的關係

偏差指輸出與真實標記的差別，記為偏差度量了學習演算法的期望與真實結果的偏離程度，即刻畫了學習演算法本身的擬合能力。方差指乙個特定訓練集訓練得到的函式，與所有訓練集得到平均函式的差的平方再取期望，記為方差度量了同樣大小的訓練集的變動所導致的學習效能的變化，即刻畫了資料擾動所造成的影響。方差表示...

第三課 欠擬合與過擬合的概念

第三集 欠擬合與過擬合的概念

機器學習筆記三 欠擬合與過擬合的概念

偏差與方差，欠擬合與過擬合的關係

相關推薦

第三課欠擬合與過擬合的概念

第三集欠擬合與過擬合的概念

機器學習筆記三欠擬合與過擬合的概念