《統計學習方法筆記》 Logistic回歸

假設有一些資料點，我們利用一條直線對這些資料點進行擬合（該線稱為最佳擬合直線），這個擬合過程就稱為回歸。利用logistic進行回歸的主要思想：根據現有資料對分類邊界線建立回歸公式，以此進行分類。

1.優化目標函式

需要的函式應該是可以接受所有的輸入然後**出類別。

例如，在兩類的情況下，上述函式輸出0或1。海維塞德階躍函式或者直接稱為單位階躍函式滿足這一性質。然而，海維塞德階躍函式存在以下問題：該函式在跳躍點上從0瞬間跳躍到1，這個瞬間過程很難處理。因此，我們一般選擇sigmoid函式。sigmoid函式具體公式如下：σ(

當x為0時。sigmoid函式值為0.5。隨著x的增大，sigmoid函式值趨近於1；而隨著x的減小,sigmoid函式值趨近於0。當橫座標足夠大時，sigmoid函式看起來很像乙個階躍函式。

為了實現logistic回歸分類器，可以在每個特徵上都乘以乙個回歸係數，然後吧所有的結果值想家，將這個綜合帶入sigmoid函式中，進而得到乙個範圍在0-1之間的數值。任何大於0.5的資料被分入1類，小於0.5即被歸入0類。所以logistic回歸也可以被看成是一種概率估計。

2.基於最優化方法的最佳回歸係數確定

sigmoid函式的輸入記為z,由下面公式得出：z=

w0x0

+w1x

1+w2

x2+.

..+w

nxn

如果採用向量的寫法，上述公式可以寫成z=

wtx ,它表示將這兩個數值向量對應元素相乘然後全部加起來得到z值。其中的向量x是分類器的輸入資料，向量w是我們要找到的最佳係數，從而使得分類器盡可能的精確。

梯度上公升法

梯度上公升法基本的思想是：找到某函式的最大值，最好的方法是沿著該函式的梯度方向探尋。梯度上公升演算法的迭代公式如下所示：

w:=w+

α▽wf

(w)

步長為α

,該公式將一直被迭代執行，直到達到某個停止條件為止，比如迭代次數達到某個指定值或演算法達到某個可以允許的誤差範圍。

梯度上公升演算法用來求函式的最大值，而梯度下降演算法用來求函式的最小值。

優缺點及適用範圍

優點：計算代價不高，易於理解和實現。

缺點：容易欠擬合，分類精度可能不高。

適用資料型別：數值型和標稱型資料。