機器學習（四） Logistic回歸分類

logistic回歸是眾多分類演算法中的一員。通常，logistic回歸用於二分類問題，例如**明天是否會下雨。當然它也可以用於多分類問題，不過為了簡單起見，本文暫先討論二分類問題。首先，讓我們來了解一下，什麼是logistic回歸。

1： logistic回歸（相當於sigmoid 函式）

假設現在有一些資料點，我們利用一條直線對這些點進行擬合(該線稱為最佳擬合直線)，這個擬合過程就稱作為回歸，如上圖。

公式：

logistic回歸一種二分類演算法，它利用的是sigmoid函式閾值在[0,1]這個特性。logistic回歸進行分類的主要思想是：根據現有資料對分類邊界線建立回歸公式，以此進行分類。其實，logistic本質上是乙個基於條件概率的判別模型

2：

logistic回歸雖然名字上是叫回歸，但其實它是一種分類演算法。logistic回歸也在一些文獻中也稱為logit回歸、最大熵分類(maxent)或對數線性分類器。

「回歸」的意思就是要找到最佳擬合引數，其中涉及的數學原理和步驟如下：

3：與多線性回歸的差別

線性規話它的變數有很多，考慮的因素有很多，比如身高，體重，年齡······

而logistic則關心的因素少，結果只是分成兩列，是與不是兩種結果

h(x) 是資料帶入sigmiod 函式後的表示式

第一條求：產生 y=1 的概率，因為經過sigmoid函式後區間【0，1】間可以代表概率第二條求：產生 y=0的概率

整合成一條公式：如下圖

取對數變形得：

又因為：

![在這裡插入描述](

帶入，且損失值一般為負值，我們需要取正值，加負號：

這是代價函式：是n 個樣本的損失函式的集合：

要使得代價函式越小越好就是要：

越大越好。為求最大值，這裡採用梯度上公升：

一系列鏈式法則:

通過鏈式法則求得權重 w 的關係：

這是梯度上公升因為是加號

a 是學習率

x 是舊得權重

尋找一定的次數，得到最好的擬合引數（權重）

便找出分界線

待續詳細數學過程的原文：

梯度法的原文：