logistic回歸 logistic回歸

logistic回歸

logistic回歸分析可用於估計某個事件發生的可能性，這是乙個分類模型而不是乙個回歸模型！

它的基本思想是利用一條直線將平面上的點分為兩個部分，即兩個類別，要解決的問題就是如何擬合出這條直線，這個擬合的過程就稱之為「回歸」。

logistic模型

假設你有乙個需要**的內容，要通過三個輸入，x1 、x2 和 x3的某種線性組合來**某個問題，或者說知道某件事情發生的概率 z的話，那麼用 logistic 回歸來表達

寫成一般式：

logistic回歸是處理二分類問題的，所以輸出的標記y=，並且線性回歸模型產生的**值z=wx+b是乙個實值，所以我們將實值z轉化成0/1值便可，這樣有乙個可選函式便是「單位階躍函式」：

這種如果**值大於0便判斷為正例，小於0則判斷為反例。

但是單位階躍函式是非連續的函式，我們需要乙個連續的函式，「sigmoid函式」便可以很好的取代單位階躍函式：

這樣我們在原來的線性回歸模型外套上sigmoid函式便形成了logistic回歸模型的**函式，可以用於二分類問題：

對上式的**函式做乙個變換為：

若將y視為樣本x作為正例的可能性，則1-y便是其反例的可能性。二者的比值便被稱為「機率」，反映了x作為正例的相對可能性，這也是logistic回歸又被稱為對數機率回歸的原因！

損失函式：

在邏輯回歸中，需要**的結果 ̂可以表示為y^=σ(wtx+b)，我們約定y^=p(y|x)，也就是說，演算法輸出的y^是給定訓練樣本x條件下y等於1的概率。

y=1時，在給定訓練樣本x條件下 = ̂

y=0時，在給定訓練樣本x條件下 =1− ̂

因此，如果y^代表y=1的概率，那麼1−y^就代表y=0的概率。將上面兩個公式合二為一： ( | )= ̂**y(1− ̂)**(1-y)

當y=1時， ( | )= ̂

當y=0時， ( | )=1− ̂

損失函式（取對數是為了連乘變成連加）：

我們先來看一看這個看上去很複雜的 loss function 能否起到衡量輸出準確的作用，為了使得輸出盡可能準確，我們要做的就是使得損失函式盡可能小：

1.當正確輸出 y=0

y=0 時，表示式變成了公式l(ŷ,y)=−log(1−ŷ)，為了使得 l(yˆ,y)

盡可能小，log(1−yˆ)就要盡可能大，也就是 1−yˆ要盡可能大，最終結果是 yˆ要盡可能小，而 yˆ∈[0,1]，因此 yˆ 需要盡可能接近於0，也就是正確輸出 y。

2.當正確輸出 y=1時，表示式變成了公式l(ŷ,y)=−log(ŷ），為了使得 l(yˆ,y)盡可能小，log(yˆ)就要盡可能大，最終結果是 yˆ要盡可能大，而 yˆ∈[0,1]，因此 yˆ需要盡可能接近於1，也就是正確輸出 y。

ps：為什麼要用交叉熵損失函式，而不用均方損失函式？

這是因為如果使用均方損失函式 d(yˆ,y)那麼對應的 cost 函式 j(w,b)將是非凸的，這會產生許多的區域性最小值，導致在梯度下降的過程當中難以找到全域性最優解。而損失函式是凸的，這就有利於我們在後面進行梯度下降。

梯度下降法：

為了使得模型的效果更好，我們需要著眼的是怎樣調節 w和 b，使得 cost function j(w,b)盡可能小。

為了方便起見，我們暫時忽略 b，只看 w對 j(w)的影響，你將下圖看到它的形態。

現在假設我們的 w取在了最低點的右側，那麼你會發現它的斜率是大於零的，也就是

那麼為了減小 w，你應該用將 w 減去乙個常數去乘以這個導數：

這個常數被稱作學習率(learning rate)，一般記作 α，用來控制每次更新的步幅。而如果我們的 w偏小了，即取在了最低點的左側，你會發現它的斜率是小於零的，那麼用公式來更新 w就會使得 w變大，因此無論 w偏小還是偏大，我們都可以只使用公式就能夠不斷地優化 w，使得 j(w) 越來越小。

logistic 回歸中的梯度下降法

logistic 回歸當中的梯度下降法：

首先我們計算一下 a對於損失函式 l(a,y)的偏導數：