邏輯斯諦回歸

2022-07-12 21:30:33 字數 3187 閱讀 8409

先介紹乙個分布:邏輯斯諦分布。

設 $x$ 是連續隨機變數,且 $x$ 具有以下分布函式和概率密度:

$$f(x) = p(x \leq x) = \frac}} \\

f(x) = f^(x) = \frac}}})^}$$

其中,$\mu$ 是隨機變數的數學期望,$\lambda > 0$

是形狀引數。

由圖可以看出,邏輯斯諦分布和高斯分布的密度函式長得差不多。特別注意邏輯斯諦分布的概率密度函式自中心附近增長速度較快,而

在兩端的增長速度相對較慢。形狀引數 $\lambda$ 的值越小,$f(x)$ 在中心附近增長的越快。

邏輯斯諦回歸的英文是:

logistic regression,下面簡稱其為 lr 回歸。

種分類模型。對線性模型進行分類如二分類任務,簡單的是通過階躍函式($sgn$ 函式),即將線性模型的輸出值套上乙個函式進行分割,但這樣的

分段函式數

學性質不好,既不連續也不可微。

因此有人提出了對數機率函式,見上圖,簡稱 $sigmoid$ 函式。

$$y = \frac} = \frac}}$$

該函式具有很好的數學性質,既可以用於**類別,並且任意階可微,因此可用於求解最優解。這個函式能夠將輸出壓縮在 $0-1$ 之間。

將分類超平面方程代入函式,可得:

$$y = \fracx+b)}} = \fracx+b}}x+b}}$$

函式的輸出 $y$ 是有概率意味的,表達的是:當前測試樣本屬於類別 $1$ 的概率。

由上可知:

$$1 - y = \fracx+b)}}x+b)}} = \fracx+b}}$$

若將$y$ 視為樣本$x$ 作為正例的可能性,則$1-y$ 是其反例的可能性,兩者的比值稱為機率(odds),反映了$x$ 作為正例的相對可能性。

對機率取對數則得到對數機率:

$$\ln \frac = w^x+b$$

可以看出得到的超平面方程就是對數機率。將上面全部寫成概率形式就是:

$$p(y = 1 \;|\; x = x) = \fracx+b)}} = \fracx+b}}x+b}}$$

$$p(y = 0 \;|\; x = x) = \fracx+b)}}x+b)}} = \fracx+b}}$$

$$\ln \frac = w^x+b$$

那如何**輸出呢?

對於給定的輸入例項 $x$,比較 $p(y = 1 \;|\; x = x), p(y = 0 \;|\; x = x)$ 這兩個條件概率的大小,將例項 $x$ 分到概率值較大的那一類。

從上面的過程可以看出,似乎是直接將 $sigmoid$ 函式的輸出當成了概率,下面用貝葉斯公式推導一下:

$$p(y = 1 \;|\; x = x) = \frac \\

= \frac \\

= \frac}

= \frac}} \\

= \frac}} = \frac}}$$

這個概率形式就和 $sigmoid$ 的函式形式很像。所以說邏輯回歸的模型表示式是有概率的原理在裡面的,但前提是$w^x + b$ 這個回歸表示式擬合的

對數機率這種東西。也就是說最終訓練出的$w^x + b$ 要使得這個線性回歸表示式的輸出為訓練樣本的對數機率。

那感受一下超平面方程能不能體現對數機率呢?

是可以的,不然這個模型也就不成立了。當點在超平面上時,分到正類還是負類的概率是相等的,所以相對機率就是 $0$,超平面方程輸出也是 $0$,

所以兩者是契合的。

模型引數估計

採用極大似然估計來求得引數 $w,b$。對於給定的訓練資料集:

$$t = \left \,y_),(x_,y_),...,(x_,y_)\right \}$$

設:$$p(y = 1 \;|\; x = x) = \pi(x) \\

p(y = 0 \;|\; x = x) = 1 - \pi(x)$$

則似然函式或這組樣本出現的概率為:

$$l(w,b) = \prod_^[\pi(x_)]^}[1-\pi(x_)]^}$$

這個式子的意思是,對於每乙個樣本來說,找到引數使其屬於真實標記的概率最大。

$$\ln l(w,b) = \sum_^\left [\; y_\ln \pi(x_) + (1-y_)\ln(1-\pi(x_) ) \;\right ]  \\

= \sum_^\left [\; y_\ln \frac)})} + \ln(1-\pi(x_) ) \;\right ] \\

= \sum_^\left [\; y_(w^x_+b) - \ln(1+e^x_ + b} ) \;\right ]$$

記$$\hat = \begin

w\\

b\end ,\;

\hat_ = \begin

x_\\

1\end$$

所以有:

$$\ln l(w,b) = \sum_^\left [\; y_(\hat^\hat_) - \ln(1+e^^\hat_} ) \;\right ]$$

故損失函式為

$$j(\hat) = \sum_^\left [\; -y_(\hat^\hat_) + \ln(1+e^^\hat_} ) \;\right ]$$

邏輯斯諦回歸學習中通常採用的方法是梯度下降法及擬牛頓法。下面介紹通過梯度下降法求解過程

求偏導得:

$$\frac} = \sum_^\left [ \; -y_\hat} + \frac^\hat_}}^\hat_}}\hat} \; \right ] = \sum_^\left [ \; -y_ + \pi(\hat}) \; \right ]\hat}$$

這裡的 $y_$ 是樣本點的輸出,只有 $0,1$ 兩個值,不是概率,$\pi(\hat})$ 為樣本輸出為正類的概率。

在使用梯度下降法求解時,每次迭代地更新公式為:

$$\hat = \hat - \sum_^\left [ \; -y_ + \pi(\hat}) \; \right ]\hat}$$

邏輯斯諦回歸模型

logistic分布函式形式 在該方程式中,x是隨機變數,是平均值,s是與標準偏差成比例的比例引數。這個方程我們只需要了解,在邏輯回歸模型中真正用到的是sigmoid函式 當上式中的 0,s 1時,即為sigmoid函式 s z 11 e z s z frac s z 1 e z 1 邏輯回歸 lo...

邏輯斯諦回歸學習總結

邏輯斯諦回歸模型是對數線性模型的推理 邏輯斯諦分布函式f x p x x 11 e x 邏輯斯諦的密度函式是f x f x e x 1 e x 2該曲線以點 12 為中心對對稱。曲線在中心附近增長速度較快,在兩端增長速度較慢。的值越小,曲線在中心附近增長得越快。二項邏輯斯諦回歸模型的條件概率分布 p...

機器學習與資料探勘之邏輯斯諦回歸

機器學習與資料探勘參考文獻 一 二項邏輯斯諦回歸模型 二項邏輯斯諦回歸模型是如下的條件概率分布 這裡,x rn是輸入,y 是輸出,w rn和b r是引數,w稱為權值向量,b稱為偏置,w x為w和x的內積。有時為了方便,將權值向量和輸入向量加以擴充,仍記作w,x,即w w 1 w 2 w n b t,...