極大似然估計和貝葉斯估計

2021-08-17 11:04:44 字數 4387 閱讀 3416

序言

θ,然後根據資料來求出這個θ

θ. 而貝葉斯估計的難點在於p(θ

)p(θ)

需要人為設定,之後再考慮結合map

map (maximum a posterior)方法來求乙個具體的θθ. 

所以極大似然估計與貝葉斯估計最大的不同就在於是否考慮了先驗,而兩者適用範圍也變成了:極大似然估計適用於資料大量,估計的引數能夠較好的反映實際情況;而貝葉斯估計則在資料量較少或者比較稀疏的情況下,考慮先驗來提公升準確率。=d=

,當然這些資料肯定不是隨便產生的,我們就假設這些資料是以含有未知引數θ

θ 某種概率形式(如bernoulli分布即0-1分布)分布的。我們的任務就是通過已有的資料,來估計這個未知引數θ

θ。估計這個引數的好處就在於,我們可以對外來的資料進行**。

ρ,反面向上設為0為(1−

ρ)(1−ρ)

. 我們進行了3次實驗,得到兩次正面,一次反面,即序列為′1

10′′110′

。這裡,d=(

1,1,

0)d=(1,1,0),θ=

ρθ=ρ。含義

d已有的資料(data)θθ

要估計的引數(parameter)p(

θ)p(θ)

先驗概率(prior)p(

θ|d)

p(θ|d)

後驗概率(posterior)p(

d)p(d)

資料分布(evidence)p(

d|θ)

p(d|θ)

似然函式(likelihood of θ

θ w.r.t. dd)

p(x,

θ|d)

p(x,θ|d)

已知資料條件下的x,θ

x,θ概率

θ 時採用的不同態度。(θ

|d)p(θ|d)

最大的引數θ

θ,形式化表達為求解 

maxθp(

θ|d)

(1)(1)arg⁡maxθp(θ|d)(θ

|d)=

p(d|

θ)p(

θ)p(

d).(2)

(2)p(θ|d)=p(d|θ)p(θ)p(d).θ(

θ)p(θ)(d

)p(d)1)

(1)maxθp

(d|θ

)(3)

(3)arg⁡maxθp(d|θ)3)

(3)(d|

θ)p(d|θ)=d=

(d|θ

)=∏i

=1np

(xi|

θ),(4)

(4)p(d|θ)=∏i=1np(xi|θ),=(

1,1,

0)d=(1,1,0)

, θ=ρ

θ=ρ 的話,我們可以得到 (d

|θ)=

p(x1

|ρ)p

(x2|

ρ)p(

x3|ρ

)=p(

1|ρ)

p(1|

ρ)p(

0|ρ)

=ρ∗ρ

∗(1−

ρ)(5)(5)p(d|θ)=p(x1|ρ)p(x2|ρ)p(x3|ρ)=p(1|ρ)p(1|ρ)p(0|ρ)=ρ∗ρ∗(1−ρ)ρθ

。後驗概率是指掌握了一定量的資料後我們的引數分布是怎麼樣的,表示為p(θ

|d)p(θ|d)

;那先驗就是在沒有掌握資料後我們的引數怎麼分布。2)

(2) 其實是乙個很概括的模型,既沒有對概率形式以及概率引數進行定義,也沒有運用到引數固定與否的思想,所以公式(2)

(2) 同樣適用於貝葉斯模型,我們仍然想對該式進行處理得出我們的貝葉斯估計方法。照抄下來(2)

(2) 式為 (θ

|d)=

p(d|

θ)p(

θ)p(

d).p(θ|d)=p(d|θ)p(θ)p(d).(θ

)p(θ)(d

)=∫θ

p(d|

θ)p(

θ)dθ

.(6)

(6)p(d)=∫θp(d|θ)p(θ)dθ.4)

(4)(d|

θ)=∏

i=1n

p(xi

|θ)p(d|θ)=∏i=1np(xi|θ)6)

(6)2

)(2)(θ

|d)=

(∏ni

=1p(

xi|θ

))p(

θ)∫θ

(∏ni

=1p(

xi|θ

))p(

θ)dθ

(7)(7)p(θ|d)=(∏i=1np(xi|θ))p(θ)∫θ(∏i=1np(xi|θ))p(θ)dθ7)

(7)式,其實這些符號我們都是知道的,我們就通過下面的例項來詳述。7)

(7)中的符號有先驗,根據之前對先驗的介紹,這是在沒有資料之前我們就已經知道的函式了。知道是什麼意思?不妨還是在那個拋硬幣試驗中,我們假設這個θ(ρ

)θ(ρ)

的先驗概率是服從 ρ(

ρ)=6

ρ(1−

ρ)(8)(8)fρ(ρ)=6ρ(1−ρ)∏n

i=1p

(xi|

θ))(∏i=1np(xi|θ))∗ρ

∗(1−

ρ)ρ∗ρ∗(1−ρ)(θ

|d)p(θ|d)

都找出來,而是仍然採用類似於極大似然估計的思想,來極大後驗概率(maximum a posterior),得到這種簡單有效的叫做map(前面英文的首字母)的演算法。下面我們再一步步介紹一下map。(θ

|d)p(θ|d)

。那麼這個後驗概率能用來做什麼呢?當然,就比如我們一直在說的那個例子,得到了資料d=(

110)

d=(110)

,還想**第四次得到的結果什麼是什麼怎麼辦?我們當然就需要計算p(1

|d)p(1|d)和p(

0|d)

p(0|d)

看看誰大誰小,哪個更有可能發生。這裡,為了泛化,我們將問題再次形式化一下為=(

x1,x

2,..

.,xn

)d=(x1,x2,...,xn)

,**新的資料x

x的值。

d的情況下,找到資料的數學期望

2。即求 (x

|d)=

∫xxp

(x|d

)dx.

(9)(9)e(x|d)=∫xxp(x|d)dx.(x

|d)p(x|d)θ(

x|d)

=∫θp

(x,θ

|d)d

θ(10)

(10)p(x|d)=∫θp(x,θ|d)dθ(x

,θ|d

)=p(

x|θ,

d)p(

θ|d)

.(11)

(11)p(x,θ|d)=p(x|θ,d)p(θ|d).xθ

dxθd

θd(x

|θ,d

)p(x|θ,d)(x

|θ,d

)=p(

x|θ)

p(x|θ,d)=p(x|θ)xθ

d10)(10)(x

|d)=

∫θp(

x,θ|

d)dθ

=∫θp

(x|θ

)p(θ

|d)d

θ.(12)

(12)p(x|d)=∫θp(x,θ|d)dθ=∫θp(x|θ)p(θ|d)dθ.(x

|θ)p(x|θ)(1

|ρ)p(1|ρ)

或者p(0|

ρ)p(0|ρ)(θ

|d)p(θ|d)7)

(7)x9)

(9)12

)(12)

式,這裡面的困難是引數是隨機分布的,我們需要考慮到每乙個可能的引數情況然後積分,這種數學上的簡單形式,其實想要計算出來需要大量的運算。那我們不妨退而求其次,我找乙個跟你差不多效果的後驗概率,然後就只計算這個後驗帶入計算。那麼什麼樣的後驗概率和對所有可能的θ

θ積分情況差不多呢?想法就是,找乙個θ

θ能夠最大化後驗概率,怎麼才能最大化後驗概率呢?7)

(7)式,對(7)式觀察發現,其實分母只是乙個歸一化的因子,並不是θ

θ的函式。真正有效的其實就是要最大化我們的分子,於是使用 ma

p=argmaxθ∏

i=1n

p(xi

|θ)p

(θ)(13)

(13)θmap=arg⁡maxθ∏i=1np(xi|θ)p(θ)3)

(3),(13)

(13)式。↩

andrew』s notes (note5) 

↩pattern recognition and machine learning 

極大似然估計和貝葉斯估計

假設 存在乙個先驗分布g 那麼 的後驗分布為 f x g f x g d 最大後驗概率估計 即為 後驗概率分布的眾數 m ap x ar gmax f x g 可以看做正則化的最大似然估計,當g是常數時兩者等價 極大似然估計和貝葉斯估計分別代表了頻率派和貝葉斯派的觀點。頻率派認為,引數是客觀存在的,...

極大似然估計與貝葉斯估計

貝葉斯估計與極大似然估計在思想上有很大的不同,代表著統計學中貝葉斯學派和頻率學派對統計的不同認識。極大似然估計是頻率學派觀點,它的觀點可以這樣理解 待估計引數 theta 是客觀存在的,只是未知而已,已知觀測樣本 d dd,求得 hat 使得在 theta hat 時,產生觀測樣本資料 d dd 的...

7 極大似然估計與貝葉斯估計

對於乙個正態總體 n mu,sigma 2 若其中兩個引數未知,而我們卻擁有一組資料的觀測值,我們設 mu theta 1,sigma 2 theta 2 由一元正態分佈的概率密度函式我們容易得出此式 f x theta 1,theta 2 sqrt exp left x theta 1 2 rig...