初學logistic回歸

一、簡介

假設現在有一些資料點，我們用一條直線對這些點進行擬合，這個擬合的過程就稱作回歸。logistic回歸的主要思想是：根據現有資料對分類邊界線建立回歸方式，以此進行分類。這是乙個二值型輸出分類器。由於需要進行距離計算，以此要求資料型別為數值型。

二、基本思想

我們想要的函式是能夠接受所有的輸入然後**出類別。我們此處用的函式是sigmoid函式，sigmoid函式具體的計算方式如下：

當x為0時，sigmoid函式值為0.5。隨著x的增大，對應的sigmoid函式值將逼近1；隨著x的減少，對應的sigmoid函式值將逼近0。如果橫座標刻度足夠大，sigmoid函式看起來很像乙個階躍函式。為了實現回歸器，我們在每個特徵上都乘以乙個回歸係數，然後把所有的結果值相加，將這個結果帶入sigmoid函式中，進而得到乙個範圍在0~1之間的數值。任何大於0.5的資料被分入1類，小於0.5的資料歸入0類。所以，logistic回歸也可以被看成是一種概率估計。確定了分類器的函式形式，現在的問題變成了求回歸係數。

sigmoid函式的輸入記為z，由下面公式得出：

如果採用向量的寫法，上述公式可以寫成

x是分類器的輸入資料，向量

w也就是我們要找到的最佳引數，從而使得分類器盡可能地精準。

我們使用梯度上公升的最優化方法求得資料集的最佳引數，梯度上公升法基於的思想是：要找到某函式的最大值，最好的方法是沿著該函式的梯度方向探尋。梯度運算元總是指向函式值增長最快的方向。梯度上公升演算法的迭代公式是：

該公式一直被迭代執行，直到達到某個停止條件為止，比如迭代次數達到某個指定值或演算法達到某個可以允許的誤差範圍。

梯度上公升法找到最佳回歸係數的偽**：

每個回歸係數初始化為1

重複r次：

計算整個資料的梯度

使用alpha*gradient更新回歸係數的向量

返回回歸係數

三、小結

1、處理資料中的缺失值：

使用可用特徵值的均值來填補缺失值；

使用特殊值來填補缺失值，如0；

忽略有缺失的樣本；

使用相似樣本的均值填補缺失值；

使用另外的機器學習演算法**缺失值

ps:參考自《機器學習實踐》

初學logistic回歸

logistic回歸 logistic回歸

logistic分類（logistic回歸 LR）

Logistic回歸模型

初學logistic回歸

logistic回歸 logistic回歸

logistic分類（logistic回歸 LR）

Logistic回歸模型

相關推薦