邏輯回歸原理總結

2022-09-14 03:15:12 字數 1452 閱讀 2812

回顧線性回歸\(y=x^t\beta\),我們知道響應變數\(y\)一般是連續的,但在分類問題中,比如常見的二分類中\(y=0\)或\(y=1\)是非連續的。為了依舊能夠利用輸入特徵\(x\)的線性函式來建立分類的後驗概率\(p(y=0)\)和\(p(y=1)\),可以對線性回歸\(x^t\beta\)進行如下變換

\[g(x)=\frac}

\]可以發現,此時\(g(x)\in[0,1]\)。通常取臨界值0.5,當\(g(x)>0.5\),即\(x^t\beta>0\)時,\(y=1\);當\(g(x)<0.5\),即\(x^t\beta<0\)時,\(y=0\);當\(g(x)=0.5\),此時邏輯回歸無法確定分類。也就是說,當\(x^t\beta\)越大,分為1的概率越大;當\(x^t\beta\)越小,分為0的概率越大;當\(x^t\beta\)越接近0,分類的不確定性越大。

由於二分類問題的響應變數非連續,所以最小二乘方法中的誤差平方和損失在這不適用,我們可以採用最大似然進行擬合。假設二分類響應變數為\(y=0\)和\(y=1\),且

\[p(y=1|x,\beta)=\frac}

\]\[p(y=0|x,\beta)=1-p(y=1|x,\beta)=\frac}}

\]合併上述兩式

\[p(y|x,\beta)=p(y=1|x,\beta)^[1-p(y=1|x,\beta)]^,~~y=0,1

\]對應的\(n\)樣本對數似然為

\[l(\beta)=\sum_^\log[p(y_i|x_i,\beta)]=\sum_^\\]即

\[l(\beta)=-\sum_^n[(1-y_i)x_i^t\beta+\log(1+\exp(-x_i^t\beta))]

\]採用梯度上公升法求解最優引數,先對上式求導

\[\frac=\sum_^n(y_i-\frac)x_i=x^t(y-g(x))

\]梯度上公升法中每一步向量\(\beta\)的迭代公式如下,其中\(\alpha\)為迭代步長,

\[\beta=\beta+\alpha x^t(y-g(x))

\]構建邏輯回歸模型意在利用輸入特徵\(x\)的線性函式來建立分類(\(g=1,\cdots,k\))的後驗概率,並要求所有類別的後驗概率之和為1且都在\([0,1]\)內。該模型的形式為(稱之為logit變換或log-odds),總共\(k-1\)個方程,

\[\log\frac=x^\beta_1

\]\[\log\frac=x^\beta_2

\]\[\vdots

\]\[\log\frac=x^\beta_

\]整個模型的引數為\(\theta=(\beta_1^t,\cdots,\beta_^t)\)。根據\(\sum_^p(g=k|x=x)=1\)可以計算出

\[p(g=k|x=x)=\frac^\exp\\beta_\}}

\]\[p(g=k|x=x)=\frac\beta_\}}^\exp\\beta_\}},~~k=1,\cdots,k-1.

\]

邏輯回歸原理

而在最大熵原理的指導下,我們知道了那條曲線應該是乙個什麼樣子的。首先,回顧我們之前推導出的最大熵模型為 ex p i 1nw ifi x,y ye xp i 1n wifi x,y 在二分類的邏輯回歸模型中,y的取值假定有兩種 y0 y1 那麼對應到特徵函式 fi x,y 上,我們可以設定 f x,...

邏輯回歸原理

最大似然估計 現在已經拿到了很多個樣本 你的資料集中所有因變數 這些樣本值已經實現,最大似然估計就是去找到那個 組 引數估計值,使得前面已經實現的樣本值發生概率最大。因為你手頭上的樣本已經實現了,其發生概率最大才符合邏輯。這時是求樣本所有觀測的聯合概率最大化,是個連乘積,只要取對數,就變成了線性加總...

邏輯回歸原理

看了很多遍邏輯回歸的原理,但是發現自己還是不能完整的講清楚它的原理,所以在這裡寫一篇部落格來理清楚自己的思路。水平有限,如有錯誤還請指正。邏輯回歸是利用回歸類似的方法來解決分類問題。假設有乙個二分類問題,輸出y sigmoid函式的影象 sigmoid函式中的z就是線性函式的z,因為g z 最後輸出...