最小二乘和最大似然

2021-07-24 23:18:16 字數 2468 閱讀 6853

輸入一組向量xx

=[x1

,x2,

...,

xd]

, 用線性模型**輸出變數y。 y

^=ww

txx(1)

其中ww 是權重, 是線性模型的引數。在這裡,我們已經將輸入向量擴增為增廣向量xx

=[x1

,x2,

...,

xd,1

] , 最後的1所對應的權重為截距。這種做法方便後續處理。我們有一批樣本(x

x1,y

1),(

xx2,

y2),

...,

(xxn

,yn)

。n個樣本可以疊加起來, 如下所示: x

x=⎡⎣

⎢⎢⎢⎢

xxt1

xxt2

...x

xt2⎤

⎦⎥⎥⎥

⎥=⎡⎣

⎢⎢⎢⎢

x1,1

x2,1

...x

n,1x

1,2x

2,2.

..xn

,2..

....

....

..x1

,dx2

,d..

.xn,

d⎤⎦⎥

⎥⎥⎥y

y=⎡⎣

⎢⎢⎢y

1y2.

..yn

⎤⎦⎥⎥

⎥(2)

最小二乘法可以用來估計線性模型的引數。最小二乘法選擇引數ww

, 以最小化**值y^

和真實值

y 之間差值的平方。 或

者矩陣形

式:mi

nmin

rss(

ww)=

∑i=1

n(yi

−wwt

xxi)

2rss

(ww)

=(yy

−xxw

w)t(

yy−x

xww)

(3)

rss是ww

的凸函式,因此存在最小值,並且最小值在導數等於0的時候取得。 ∂

rss∂

ww=x

xt(y

y−xx

ww)=

0=>ww

=(xx

txx)

−1xx

tyy(4)

1. 投影和最小二乘法

假設沒有誤差,則輸入變數xx

和**變數

y 滿足線性關係: y=

wwtx

x ,得yy

=xxw

w 。 這個等式表示向量yy

屬於矩陣xx

的列空間。

但是由於誤差, 線性關係不成立, 即向量yy

不屬於矩陣xx

的列空間。為了得到ww

,我們把向量yy

投影到矩陣xx

的列空間,得到yy

^ , 然後解yy

^=xx

ww。

=>

=>yy

^=xx

(xxt

xx)−

1xxt

yyxx

ww=x

x(xx

txx)

−1xx

tyyw

w=(x

xtxx

)−1x

xtyy

(5)

等等,我們好像之前見過這樣的公式(??)。 這和最小二乘法的結論一模一樣。 投影方法和最小二乘法從不同的想法出發, 最終得到了一致的結論。

2. 極大似然估計和最小二乘法

在概率論的語言下,偏離線性關係的誤差,滿足期望為0的高斯分布, 如下所示。 y

iϵi=

∼wwt

xxi+

ϵin(

0,σ2

)(6)

我們用極大似然方法估計線性模型的引數ww

, 似然值: l

(ww)

===∑

i=1n

logf

(ϵi)

f是n(

0,σϵ

)的概率

密度函式

∑i=1

nlog

12πσ

2−−−

−√ex

p(−ϵ

2i2σ

2)∑i

=1n−

(yi−

wwtx

xi)2

2σ2−

log2

πσ2−

−−−√

(7)

為了最大化似然值l(

ww) , 需要最小化∑n

i=1(

yi−w

wtxx

i)2 。 這也是最小二乘法所追求的。 因此我們可以說, 誤差服從高斯分布的情況下, 最小二乘法等價於極大似然估計。

最大似然與最小二乘

看似最小二乘估計與最大似然估計在推導得到的結果很相似,但是其前提條件必須引起大家的注意!對於最小二乘估計,最合理的引數估計量應該使得模型能最好地擬合樣本資料,也就是估計值和觀測值之差的平方和最小,其推導過程如下所示。其中q表示誤差,yi表示估計值,yi 表示觀測值。對於最大似然法,最合理的引數估計量...

最小二乘估計與最大似然估計

看似最小二乘估計與最大似然估計在推導得到的結果很相似,但是其前提條件必須引起大家的注意!對於最小二乘估計,最合理的引數估計量應該使得模型能最好地擬合樣本資料,也就是估計值和觀測值之差的平方和最小,其推導過程如下所示。其中q表示誤差,yi表示估計值,yi 表示觀測值。對於最大似然法,最合理的引數估計量...

最大似然估計與最小二乘的理解

最大似然估計,就是利用已知的樣本結果,反推最有可能 最大概率 導致這樣結果的引數值。例如 乙個麻袋裡有白球與黑球,但是我不知道它們之間的比例,那我就有放回的抽取10次,結果我發現我抽到了8次黑球2次白球,我要求最有可能的黑白球之間的比例時,就採取最大似然估計法 我假設我抽到黑球的概率為p,那得出8次...