邏輯回歸與過擬合問題

2021-07-29 13:55:51 字數 2043 閱讀 7069

分類問題(classification)是機器學習要解決的另一大類問題,這裡用到的方法是邏輯回歸(logistic regression),也是目前機器學習領域應用最廣泛的方法。先從基本的二分類問題入手,即輸出

y 只有0,

1兩種結果。

對於分類問題,只有離散有限的取值,顯而易見的,用線性回歸的表示方法並不能很好地表示,因此需要把假設函式的形式改寫一下,引入s型函式(sigmoid function),也稱邏輯函式(logistic function)。改寫形式如下: hθ

(x)=

g(θt

x) g

(z)=

11+e

−z 即

hθ(x

)=11

+e−θ

tx直觀地看g(

z)(s型函式)的影象是

其值域的範圍是(0

,1) ,定義域是(−

∞,+∞

) 。這樣,就把乙個離散的問題轉化成乙個連續函式表示的問題,可以看做是

(x) 表示

y 輸出1的概率,用概率的數學表示是: hθ

(x)=

p(y=

1|x;

θ)=1

−p(y

=0|x

;θ)例如,hθ

(x)=

0.7 表示y=

1 的概率是

0.7 ,此時y=

0 的概率是

0.3 。這樣,可以通過計算hθ

(x) 的值**

y ,當hθ

(x)≥

0.5時認為y=

1 ,當hθ

(x)<

y 時認為y=

0 。通過計算hθ

(x)≥

0.5 和hθ

(x)<

0.5 時

x 的取值範圍,可以得到y=

1和y=

0 的分界,這條界線稱為決策邊界(decision boundary)。

決策邊界並不一定是直線,對於非線性的情況,會出現不同的形狀。

而另一點需要強調的是,決策邊界並不是樣本的性質,而是決定於假設函式,或者說對問題的建模。

模擬於線性回歸,需要建立乙個代價函式(cost function)來表示假設函式hθ

(x) 與輸出

y j(

θ)=c

ost(

hθ(x

),y)

=

對於標準方程法,改寫成: θ=

(xtx

+λl)

−1xt

y 其中l

=⎡⎣⎢

⎢⎢⎢⎢

⎢⎢01

1⋱1⎤

⎦⎥⎥⎥

⎥⎥⎥⎥

改寫成這樣有乙個附加好處,就是加入λl

項後矩陣一定可逆。

對於邏輯回歸,代價方程改寫為: j(

θ)=−

1m∑i

=1m[

y(i)

log(

hθ(x

(i))

)+(1

−y(i

))lo

g(1−

hθ(x

(i))

)]+λ

2m∑j

=1nθ

2j而梯度下降法的迭代方程與線性回歸中的形式一樣,只是其中假設函式的表示式不一樣。

機器學習 邏輯回歸2 多分類問題和過擬合問題

邏輯回歸1 現實生活中常遇到很多多分類學習任務,有些二分類學習方法可以直接推廣到多分類,但在現實更多情形下,我們是基於一些策略,利用二分類學習器來解決多分類問題。利用二分類學習器進行的多分類學習可以分為三種策略 給定資料集d x1,y1 x2,y2 xm,y m d x1,y 1 x2,y 2 x ...

線性回歸 4 欠擬合 過擬合與區域性加權線性回歸

的個 數或者x 的指數大 小來獲得 不同形狀 的擬合曲 線 看下面的圖 左邊的曲線是在假設y 0 1x時的擬合結果,但顯然中間的曲線要比左邊的擬合效果更好。我們稱左邊的情況為欠擬合 underfitting 這樣看來右邊的不是比左邊更好嗎?no!我們稱右邊的情況為過擬合 overfitting 因為...

過擬合問題

概念 過擬合就是訓練出來的模型在訓練集上表示很好,但在測試集上表現較差的一種現象 原因 1 資料有雜訊 即不相關的干擾因素 2 訓練資料不足 3 訓練模型過度導致模型非常複雜 解決方式 1 early stopping 提前結束訓練,就是找到了乙個點,這個點的引數精確值最高,並且在接下來的n次訓練中...