機器學習 邏輯回歸(LR)

2022-08-20 12:21:09 字數 2042 閱讀 3101

1. 模型介紹

logistic regression 雖然被稱為回歸,但其實際上是分類模型,並常用於二分類。logistic regression 因其簡單、可並行化、可解釋強深受工業界喜愛。在正式介紹模型之前,先聊一聊logitstic分布。

1.1 邏輯斯諦分布(logistic distribution)

logistic分布是一種連續型的概率分布,其分布函式和密度函式分別為:

其中,$\mu$表示位置引數,$\gamma > 0$為形狀引數。logistic分布函式的圖形是一條s形曲線。該曲線以點$(\mu,\frac)$為中心對稱,既滿足$f(-x+\mu) - \frac = -f(x+\mu) + \frac$。曲線在中心附近增長速度較快,在兩端速度較慢。形狀引數$\gamma$的值越小曲線在中心附近增長越快。$f(x)$、$f(x)$曲線如下所示:

1.2  邏輯斯蒂回歸模型

先給出二項邏輯斯諦回歸模型的條件概率分布:

這裡,$x \in r^$是輸入,$y \in $是輸出,$w \in r^$和$b \in r$是引數,$w$為權值向量,$b$為偏置,$w \cdot x$為$w$和$b$的內積。對於給定的輸入例項x,按照上述公式計算出$p(y = 1|x)$以及$p(y = 0|x)$。邏輯斯蒂回歸比較兩個條件概率值的大小,將例項$x$分到概率值較大的那一類。

接下來聊聊邏輯斯蒂回歸模型的特點。先給出乙個定義:乙個事件的機率(odds)是指該事件發生的概率與該事件不發生的概率的比值。如果事件發生的概率是$p$,那麼該事件的機率是$\frac$,該事件的對數機率(log odds)或者logit函式為:$logit(p) = log\frac$。對邏輯斯蒂而言,其logit函式為:

也就是說,在lr模型,輸出$y = 1$的對數機率為輸入$x$的線性函式。換乙個角度看,考慮對輸入$x$進行分類的線性函式$w \cdot x$,其值域為實數域,lr(按照logistic分布)將其轉換為概率:

這個時候,線性函式的值越接近正無窮,概率值就越接近1;線性函式的值越接近負無窮,概率值越接近0,這樣的模型就是邏輯斯蒂回歸模型。通過上述的乙個推導,我們可以發現lr實際上是使用線性模型的**值逼近分類任務真實標記的對數機率,有以下幾個優點:

1.3 模型引數估計

lr在學習的時候,對於給定的訓練資料集$t = ,y_),(x_,y_),...,(x_,y_)}$,其中,$x_ \in r^$,$y_ \in $,可以用極大似然估計估計模型引數。

假設:似然函式為:

對數似然函式為:

對於$l(w)$求極大值,能夠得到$w$的估計值。求解的方式一般採用的是梯度下降法,這裡需要求出$l(w)$的一階導,如下所示:

(後續要補乙個手推的過程)

邏輯回歸 LR模型

邏輯回歸演算法相信很多人都很熟悉,也算是我比較熟悉的演算法之一了,畢業 當時的專案就是用的這個演算法。這個演算法可能不想隨機森林 svm 神經網路 gbdt等分類演算法那麼複雜那麼高深的樣子,可是絕對不能小看這個演算法,因為它有幾個優點是那幾個演算法無法達到的,一是邏輯回歸的演算法已經比較成熟,較為...

機器學習 邏輯回歸

邏輯回歸 線性回歸的式子,作為邏輯回歸的輸入 適用場景 二分類 線性回歸的輸入 sigmoid函式 分類 0,1 概率值 計算公式 當目標值為1時 損失函式的變化 當目標值為0時 損失函式的變化 下面用乙個例項來說明邏輯回歸的用法 癌症概率 部分資料的截圖如下 資料描述 699條樣本,供11列資料,...

機器學習 邏輯回歸

coding utf 8 import pandas as pd import seaborn as sns from sklearn.model selection import train test split import matplotlib.pyplot as plt 用於畫圖 from ...