邏輯回歸（一）

邏輯回歸這個名字聽起來與線性回歸有一定的相似，因為有回歸二字。實際上，邏輯回歸與線性回歸沒有什麼關係，邏輯回歸是分類模型的一種，對於任意的(x_i,y_i)， y_i的取值為(0,1)。本文主要從機器學習角度來闡述邏輯回歸模型，有些地方會兼顧統計學。

邏輯回歸是用sigmoid函式將其值域壓縮到0，1之間。邏輯回歸的輸出值是概率值（可以理解為特定事情的發生概率），可設定閾值將其分成兩類，預設閾值是0.5。本文範圍中的閾值都是0.5。sigmoid是機器學習中的說法，統計學中是利用發生比（odds）的自然對數(logit)來處理，結果是一致的。

sigmoid函式是：

邏輯回歸的函式：

之前的文章中有提到指數分布族，在邏輯回歸中的含義是，對於每乙個x_i，y_i的分布是二項分布（伯努利分布）。使用python裡面的sklearn中的廣義線性模型來估計邏輯回歸時，一般選擇的分布是伯努利分布。

一、決策邊界

決策邊界分為線性決策邊界和非線性決策邊界。

線性決策邊界：

對於以上的z(x)，z(x)≥0，對應θ^t x≥0；z(x)<0，對應θ^t x<0。此時的決策邊界是線性決策邊界。二維的情況下是一條直線。

非線性決策邊界：

（此處省略了高階項），則此時的決策邊界是非線性決策邊界。

二、代價函式

代價函式仍然是平均誤差函式：

與線性回歸不一樣的，

因為y只能取0或者1.所以可以將上式綜合，如下：

另一方面，從統計學的角度來看，求解邏輯回歸使用極大似然估計，可以得到相同的結果。

由邏輯回歸的原理可知：

整理似然函式並取對數：

使ln⁡〖l(θ)〗最大就相當於使代價函式最小，在ln⁡〖l(θ)〗前加上-1/m，即得代價函式。