邏輯斯諦回歸

先介紹乙個分布：邏輯斯諦分布。

設 $x$ 是連續隨機變數，且 $x$ 具有以下分布函式和概率密度：

$$f(x) = p(x \leq x) = \frac}} \\

f(x) = f^(x) = \frac}}})^}$$

其中，$\mu$ 是隨機變數的數學期望，$\lambda > 0$

是形狀引數。

由圖可以看出，邏輯斯諦分布和高斯分布的密度函式長得差不多。特別注意邏輯斯諦分布的概率密度函式自中心附近增長速度較快，而

在兩端的增長速度相對較慢。形狀引數 $\lambda$ 的值越小，$f(x)$ 在中心附近增長的越快。

邏輯斯諦回歸的英文是：

logistic regression，下面簡稱其為 lr 回歸。

種分類模型。對線性模型進行分類如二分類任務，簡單的是通過階躍函式($sgn$ 函式)，即將線性模型的輸出值套上乙個函式進行分割，但這樣的

分段函式數

學性質不好，既不連續也不可微。

因此有人提出了對數機率函式，見上圖，簡稱 $sigmoid$ 函式。

$$y = \frac} = \frac}}$$

該函式具有很好的數學性質，既可以用於**類別，並且任意階可微，因此可用於求解最優解。這個函式能夠將輸出壓縮在 $0-1$ 之間。

將分類超平面方程代入函式，可得：

$$y = \fracx+b)}} = \fracx+b}}x+b}}$$

函式的輸出 $y$ 是有概率意味的，表達的是：當前測試樣本屬於類別 $1$ 的概率。

由上可知：

$$1 - y = \fracx+b)}}x+b)}} = \fracx+b}}$$

若將$y$ 視為樣本$x$ 作為正例的可能性，則$1-y$ 是其反例的可能性，兩者的比值稱為機率（odds），反映了$x$ 作為正例的相對可能性。

對機率取對數則得到對數機率：

$$\ln \frac = w^x+b$$

可以看出得到的超平面方程就是對數機率。將上面全部寫成概率形式就是：

$$p(y = 1 \;|\; x = x) = \fracx+b)}} = \fracx+b}}x+b}}$$

$$p(y = 0 \;|\; x = x) = \fracx+b)}}x+b)}} = \fracx+b}}$$

$$\ln \frac = w^x+b$$

那如何**輸出呢？

對於給定的輸入例項 $x$，比較 $p(y = 1 \;|\; x = x), p(y = 0 \;|\; x = x)$ 這兩個條件概率的大小，將例項 $x$ 分到概率值較大的那一類。

從上面的過程可以看出，似乎是直接將 $sigmoid$ 函式的輸出當成了概率，下面用貝葉斯公式推導一下：

$$p(y = 1 \;|\; x = x) = \frac \\

= \frac \\

= \frac}

= \frac}} \\

= \frac}} = \frac}}$$

這個概率形式就和 $sigmoid$ 的函式形式很像。所以說邏輯回歸的模型表示式是有概率的原理在裡面的，但前提是$w^x + b$ 這個回歸表示式擬合的

是對數機率這種東西。也就是說最終訓練出的$w^x + b$ 要使得這個線性回歸表示式的輸出為訓練樣本的對數機率。

那感受一下超平面方程能不能體現對數機率呢？

是可以的，不然這個模型也就不成立了。當點在超平面上時，分到正類還是負類的概率是相等的，所以相對機率就是 $0$，超平面方程輸出也是 $0$，

所以兩者是契合的。

模型引數估計

採用極大似然估計來求得引數 $w,b$。對於給定的訓練資料集：

$$t = \left \,y_),(x_,y_),...,(x_,y_)\right \}$$

設：$$p(y = 1 \;|\; x = x) = \pi(x) \\

p(y = 0 \;|\; x = x) = 1 - \pi(x)$$

則似然函式或這組樣本出現的概率為：

$$l(w,b) = \prod_^[\pi(x_)]^}[1-\pi(x_)]^}$$

這個式子的意思是，對於每乙個樣本來說，找到引數使其屬於真實標記的概率最大。

$$\ln l(w,b) = \sum_^\left [\; y_\ln \pi(x_) + (1-y_)\ln(1-\pi(x_) ) \;\right ] \\

= \sum_^\left [\; y_\ln \frac)})} + \ln(1-\pi(x_) ) \;\right ] \\

= \sum_^\left [\; y_(w^x_+b) - \ln(1+e^x_ + b} ) \;\right ]$$

記$$\hat = \begin

w\\

b\end ,\;

\hat_ = \begin

x_\\

1\end$$

所以有：

$$\ln l(w,b) = \sum_^\left [\; y_(\hat^\hat_) - \ln(1+e^^\hat_} ) \;\right ]$$

故損失函式為

$$j(\hat) = \sum_^\left [\; -y_(\hat^\hat_) + \ln(1+e^^\hat_} ) \;\right ]$$

邏輯斯諦回歸學習中通常採用的方法是梯度下降法及擬牛頓法。下面介紹通過梯度下降法求解過程。

求偏導得：

$$\frac} = \sum_^\left [ \; -y_\hat} + \frac^\hat_}}^\hat_}}\hat} \; \right ] = \sum_^\left [ \; -y_ + \pi(\hat}) \; \right ]\hat}$$

這裡的 $y_$ 是樣本點的輸出，只有 $0,1$ 兩個值，不是概率，$\pi(\hat})$ 為樣本輸出為正類的概率。

在使用梯度下降法求解時，每次迭代地更新公式為：

$$\hat = \hat - \sum_^\left [ \; -y_ + \pi(\hat}) \; \right ]\hat}$$

邏輯斯諦回歸模型

logistic分布函式形式在該方程式中，x是隨機變數，是平均值，s是與標準偏差成比例的比例引數。這個方程我們只需要了解，在邏輯回歸模型中真正用到的是sigmoid函式當上式中的 0，s 1時，即為sigmoid函式 s z 11 e z s z frac s z 1 e z 1 邏輯回歸 lo...

邏輯斯諦回歸學習總結

邏輯斯諦回歸模型是對數線性模型的推理邏輯斯諦分布函式f x p x x 11 e x 邏輯斯諦的密度函式是f x f x e x 1 e x 2該曲線以點 12 為中心對對稱。曲線在中心附近增長速度較快，在兩端增長速度較慢。的值越小，曲線在中心附近增長得越快。二項邏輯斯諦回歸模型的條件概率分布 p...

機器學習與資料探勘之邏輯斯諦回歸

機器學習與資料探勘參考文獻一二項邏輯斯諦回歸模型二項邏輯斯諦回歸模型是如下的條件概率分布這裡，x rn是輸入，y 是輸出，w rn和b r是引數，w稱為權值向量，b稱為偏置，w x為w和x的內積。有時為了方便，將權值向量和輸入向量加以擴充，仍記作w，x，即w w 1 w 2 w n b t，...

邏輯斯諦回歸

邏輯斯諦回歸模型

邏輯斯諦回歸學習總結

機器學習與資料探勘之邏輯斯諦回歸

相關推薦