幾個常用機器學習演算法 邏輯回歸

2021-07-24 07:28:37 字數 3837 閱讀 3018

出處:

在數學上來說,回歸是給定乙個點集,然後用一條曲線去擬合。

如果這條曲線是一條直線,那就被稱為線性回歸;如果是一條二次曲線,就被稱為二次回歸。

回歸還有很多的變種,如locally weighted回歸,logistic回歸等等。

乙個簡單的例子:如果想評估乙個房屋的價值,那麼需要考慮很多因素,比如面積、房間數量、地段、朝向等等(這些影響房屋價值的因素被稱為特徵),此處,為了簡單,我們假設只考慮乙個因素的影響,面積。

假設以往房屋銷售的資料如下:

面積(m^2) 銷售價錢(萬元)

123 250

150 320

87 160

102 220

為了直觀,可以畫乙個圖,x軸是房屋的面積。y軸是房屋的售價,如下:

如果有個新戶型,在以往的銷售記錄中是沒有的,那麼就需要進行重新評估了。

我們先用一條曲線去盡量擬合以往的資料,然後再根據新的戶型資料,找到曲線上對應的**。

當用直線去擬合時,大概是這樣:

圖中綠色的點,就是我們用來**的點。

上例中特徵是兩維的,結果是一維的。

回歸能夠解決特徵多維,結果是一維多離散值或一維連續值的問題。

線性回歸假設特徵和結果滿足線性關係。

線性關係的表達能力很強,每個特徵對結果的影響強弱可以由前面的引數體現,而且每個特徵變數可以先對映到乙個函式,然後再參與線性計算。這樣就可以表達特徵與結果之間的非線性關係。

我們用x

1 ,x2

..xn

描述特徵的分量,比如x1

=房間的面積,x2

=房間的朝向等等.

接著我們以這些特徵來構建乙個線性的估計函式: h(

x)=h

θ(x)

=θ0+

θ1x1

+...

θnxn

θ稱為引數,用來調整每個特徵的影響力,比如到底是房屋的面積更重要還是房屋的地段更重要。

我們令x

0= 1,然後用向量的方式來表示上面的等式:hθ

(x)=

θt(x

) 同時,也需要乙個損失函式來評估選取的引數

θ 是否足夠好:j(

θ)=1

2∑i=

1m(h

θ(x(

i))−

y(i)

)2最後就是採取一些優化方法來取得

θ ,使損失函式取值最小。

一般來說,回歸不用在分類問題上,因為回歸是連續型模型,且受雜訊影響比較大。

如果硬要用來分類,可以使用logistic回歸。

這裡有一篇部落格幫助理清邏輯回歸的思路。

連續隨機變數

x服從邏輯分布,是指

x 具有下列分布函式和密度函式,概率密度函式是分布函式求導得來。f(

x)=p

(x⩽x

)=11

+e−(

x−μ)

/sf(

x)=f

'(x)

=e−(

x−μ)

/sγ(

1+e−

(x−μ

)/s)

2 這裡μ是位置引數,而s 是形狀引數。

邏輯分布在不同的μ 和

s的情況下,其概率密度函式f(

x;μ,

s)的圖形如下。

邏輯斯蒂分布在不同的

μ 和

s的情況下,其概率分布函式f(

x;μ,

s)的圖形如下。

可以看到,邏輯分布和高斯分布的密度函式差不多。

特別注意邏輯分布的概率分布函式自中心附近增長速度較快,而在兩端的增長速度相對較慢。

形狀引數s的數值越小,則概率分布函式在中心附近增長越快。當μ

=0,s=1

時,邏輯分布的概率分布函式就是我們常說的sigmoid函式:σ(

a)=1

1+e−

a 導數為: dσ

da=σ

(1−σ

) 邏輯回歸用來解決分類問題。

根據一些已知的訓練集訓練好模型,再對新的資料進行**屬於哪個類。

上圖有一些屬於兩個類的資料,邏輯回歸的目標是找到乙個有足夠好區分度的決策邊界,將兩類很好的分開。

假設已經存在這樣乙個邊界,針對於圖中線性可分的情況,這條邊界是

輸入特徵向量的線性組合,假設輸入的特徵向量為x∈

rn(圖中輸入向量為二維),

y 取值為0,1。那麼決策邊界可以表示為w1

x1+w

2x2+

b=0.

假如存在乙個例子使得hw

(x)=

w1x1

+w2x

2+b>

0 ,那麼可以判斷它類別為1,這個過程通過決策函式的符號來判斷屬於哪一類,實際上是感知機。

而邏輯回歸需要再進一步,它要找到分類概率p(

y=1)

與輸入向量

x 的直接關係,然後通過比較概率值來判斷類別。

邏輯回歸本質上其實是線性回歸,但是在特徵到結果的對映中加入了一層函式對映,即先把特徵進行線性求和,然後使用函式g(

z)作為假設函式來**,將連續值對映到0和1上。g(

z)是當μ=0,s=1時的邏輯分布的概率分布函式:sigmoid函式。

邏輯回歸的假設函式如下,假設線性回歸函式是θt

x ,而g(

z)=1

1+e−

z ,那麼可得hθ

(x)=

g(θt

x)=1

1+e−

θtx

邏輯回歸用來**結果屬於0或者1的二值分類問題。

這裡假設二值滿足伯努利分布,也就是p(

y=1|

x;θ)

=hθ(

x) p

(y=0

|x;θ

)=1−

hθ(x

) 然後用極大似然估計求得最優引數。

上面的邏輯回歸是二項分類模型,可以將其推廣為多項邏輯回歸,用於多類分類。p(

y=k|

x;θ)

=e−θ

tx1+

∑k−1

k=1e

−θtx

,k=1

,2...,k

−1 p

(y=k

|x;θ

)=11

+∑k−

1k=1

e−θt

x 其中,二項邏輯回歸的引數估計法也能用在多項邏輯回歸中。

本部落格參考自

《對線性回歸,logistic回歸和一般回歸的認識》

《**logistic regression 》

《logistic regression 模型簡介》

《邏輯斯蒂回歸(logistic regression) 》

《統計學習方法 李航》

機器學習演算法 邏輯回歸

二.代價函式求解 三.sklearn 引數說明 四.常見問題 參考lr 是一種簡單 高效的常用分類模型,能處理二分類或者多分類。sigmoid 函式 對線性回歸的結果做乙個在函式g上的轉換,可以變化為邏輯回歸,這個函式g在邏輯回歸中我們一般取為sigmoid函式,形式如下 g z 11 e z g ...

機器學習演算法之邏輯回歸

本部分將講解機器學習演算法中最為常用的邏輯回歸演算法,該演算法的講解主要來自於andrewng deeplearning.ai中部分課程的知識結合書籍中部分數學理論知識,將以較為易懂並部分深入的講解,講解中存在大量手寫體的公式及推導。邏輯回歸演算法中有幾個基本點需要知道 首先了解下二分類演算法需要解...

機器學習 邏輯回歸

邏輯回歸 線性回歸的式子,作為邏輯回歸的輸入 適用場景 二分類 線性回歸的輸入 sigmoid函式 分類 0,1 概率值 計算公式 當目標值為1時 損失函式的變化 當目標值為0時 損失函式的變化 下面用乙個例項來說明邏輯回歸的用法 癌症概率 部分資料的截圖如下 資料描述 699條樣本,供11列資料,...