從統計學的角度看線性回歸

2021-08-01 11:47:38 字數 3862 閱讀 7994

線性回歸是機器學習中常用的一種監督學習方法。常被用於選擇重要特徵和構造基學習器。本文將用統計學中極大似然估計和貝葉斯統計的方法推導線性回歸及正則化。

極大似然估計的核心思想是找出一組引數值,使得在該引數值下,訓練樣本被觀察到的概率最大。

在以下推導中,

w 為回歸係數,w=

(w0,

w1,.

..,w

m−1)

t 。(t

n,xn

) 為第n個樣本。全體樣本(t

,x)=

(t1,

x1),

...,

(tn,

xn) ,n為樣本個數。 假設t

n=wt

xn+ϵ

,ϵ∼n

(0,σ

2),即tn

服從正太分布,均值為wt

xn,方差為σ2

。 則所有訓練樣本

t 的概率分布函式p(

t|w,

σ2,x

)=∏n

=1nn

(tn|

wtxn

,σ2)

。 我們的目的是找出最佳回歸係數w,使得p(

t|w,

σ2,x

) 最大。最常用的解法就是求梯度找極值點。但是直接求梯度會很複雜,可以先取對數使得連乘變連加再求梯度。這麼做的另乙個好處是正太分布函式中含有指數函式,求對數後剛好消掉。而且對數函式的單調性保證了變換前後有相同的最優解。 ln

p(t|

w,σ2

)=∑n

=1nl

nn(t

n|wt

xn,σ

2) =

∑n=1

nln(

12πσ

2−−−

−√e−

12σ2

(tn−

wtxn

)2)

=−12

ln(2

π)−l

nσ−1

2σ2(

t−xw

)t(t

−xw)

令 ed(w)

=12(

t−xw

)t(t

−xw)

最大化ln

p(t|

w,σ2

) 相當於最小化ed

(w) 。在機器學習中,ed

(w) 被稱為損失函式。最優解 w∗

=arg

minw

。 求解: ∂e

d(w)

∂w=−

xt(t

−xw)

=0得: w=

(xtx

)−1x

tt檢驗w是否為最優解: ∂2

ed(w

)∂w2

=xtx

當xtx 為正定矩陣的時候,w=

(xtx

)−1x

tt為最優解。

有的時候為了防止過擬合,我們還會在損失函式中加入正則項(regularizer),比如l2範數ew

(w)=

12wt

w 。 令 e

(w)=

ed(w

)+λe

w(w)

=12(

t−xw

)t(t

−xw)

+12λ

wtw

其中λ為正則化係數,

λ>

0 。

再次求解

w : ∂e

(w)∂

w=−x

t(t−

xw)+

λw=0

得: w=(

xtx+

λi)−

1xtt

檢驗w是否為最優解: ∂2

ed(w

)∂w2

=xtx

+λi

故當xtx

+λi 為正定矩陣(positive definite)時,

w 為最優解。從上式我們也可以看出,加入正則項能使結果更穩定,因為有時候xt

x是非正定的,但是加上λi

就變成正定矩陣了。

在貝葉斯統計中,有三種概率分布:先驗概率(prior),似然概率(likelihood)和後驗概率(posterior)。類似之前極大似然估計中,我們假設似然概率: p(

tn|w

,σ2)

=n(t

n|wt

xn,σ

2) 即

tn服從正太分布,均值為wt

xn,方差為σ2

。故p(t

|w,σ

2)=n

(t|x

w,σ2

i)以下推導中我們假設σ2

已知,所有條件概率p(

t|w,

σ2) 都簡寫成p(

t|w)

。 先驗概率: p(

w)=n

(w|m

0,s0

) 根據貝葉斯公式p(

w|t)

=p(t

|w)p

(w)p

(t) ,有: p(

w|t)

∝p(t

|w)p

(w)

∝e−1

2σ2(

t−xw

)t(t

−xw)

e−12

(w−m

0)ts

0−1(

(w−m

0))

∝e−1

2[wt

(1σ2

xtx+

s0−1

)w−2

(1σ2

ttx+

m0ts

0−1)

w]對比高斯分布的分布函式,我們可以發現p(

w|t)

=n(w

|μ,σ

) 其中: σ−

1=1σ

2xtx

+s0−

1 μ=

σ(1σ

2xtt

+s0−

1m0)

令wmap=a

rgmaxwp(

w|t)

,即wma

p 最大化後驗概率(maximum a posterior)。我們知道高斯分布的概率密度最大點為均值點,故wm

ap=μ

=σ(1

σ2xt

t+s0

−1m0

) 。 當s

0 趨向於無窮大時,s0

−1趨於0,則wm

ap趨於(xt

x)−1

xtt ,也就是之前極大似然估計中得出的最優解。對s0

趨於無窮大的直觀理解是我們在得到資料前對w=

m0這個猜測非常不確定,所以讓它的方差無窮大。

另一方面,如果我們令s0

=σ2α

i,m0

=0,即w

的先驗分布是均值為零,方差為σ2

αi的高斯分布,則後驗分布的對數: ln

p(w|

t)∝l

np(t

|w)+

lnp(

w) ∝

−12σ

2(t−

xw)t

(t−x

w)−α

2σ2w

tw最大化ln

p(w|

t)就相當於最小化e(

w)=1

2(t−

xw)t

(t−x

w)+α

2wtw

,即新增了l2正則項的損失函式。由此我們發現貝葉斯線性回歸中的先驗分布起到了正則化的作用。直觀的理解,貝葉斯線性回歸中的先驗分布和一般線性回歸損失函式的正則項都代表了我們對樣本真實分布的一種預先認知。

從統計學角度來看深度學習(1) 遞迴廣義線性模型

本文得到了原英文作者shakir mohamed的授權同意,由王小寧翻譯 馮凌秉和朱雪寧審校。感謝他們的支援和幫助。深度學習及其應用已經成為實用機器學習的乙個關鍵工具。神經網路和許多現有的統計學 機器學習方法有同等重要的地位,我將在這篇文章中探索其中的乙個觀點。看待深度神經網路,我們這裡選擇乙個特別...

從統計學看NLP之概述(1)

在我看來nlp的所有思想都是基於統計學來的,不管是hmm,crf還是說目前火熱的神經網路,而目前入行nlp領域的同學可能大部分都沒有接觸過其中的統計學原理,所謂的神經網路沒可解釋性也導致大家沒興趣去研究為什麼nlp的神經網路要這麼去設計。說到機器翻譯,目前大部分都是採用seq2seq的模型,如果你是...

統計學 從對 值的理解談起

知乎來自的大神姚岑卓對 值的解釋,值代表,在假設原假設 ho 正確時,出現現狀或更差的情況的概率.這句話意義深刻,值得品味.2.另乙個就是來自果殼的文章統計學裡 p 的故事 蚊子 皇帝的新衣和不育的風流才子,對 值由來的解釋很通俗。正如他所言,設定乙個想要推翻的結論的對立面的null hypothe...