深入理解先驗分布 後驗分布 似然估計

2021-09-18 03:58:12 字數 1956 閱讀 7649

下面舉例:

隔壁老王要去10公里外的乙個地方辦事,他可以選擇走路,騎自行車或者開車,並花費了一定時間到達目的地。在這個事件中,可以把交通方式(走路、騎車或開車)認為是原因,花費的時間認為是結果。

若老王花了乙個小時的時間完成了10公里的距離,那麼很大可能是騎車過去的,當然也有較小可能老王是個健身達人跑步過去的,或者開車過去但是堵車很嚴重。若老王一共用了兩個小時的時間完成了10公里的距離,那麼很有可能他是走路過去的。若老王只用了二十分鐘,那麼很有可能是開車。這種先知道結果,然後由結果估計原因的概率分布,p(交通方式|時間),就是後驗概率。

老王早上起床的時候覺得精神不錯,想鍛鍊下身體,決定跑步過去;也可能老王想做個文藝青年試試最近流行的共享單車,決定騎車過去;也可能老王想炫個富,決定開車過去。老王的選擇與到達目的地的時間無關。先於結果,確定原因的概率分布,p(交通方式),就是先驗概率。

老王決定步行過去,那麼很大可能10公里的距離大約需要兩個小時;較小可能是老王平時堅持鍛鍊,跑步過去用了乙個小時;更小可能是老王是個猛人,40分鐘就到了。老王決定騎車過去,很可能乙個小時就能到;較小可能是老王那天精神不錯加上單雙號限行交通很通暢,40分鐘就到了;還有一種較小可能是老王運氣很差,連著壞了好幾輛共享單車,花了乙個半小時才到。老王決定開車過去,很大可能是20分鐘就到了,較小可能是那天堵車很嚴重,磨磨唧唧花了乙個小時才到。這種先確定原因,根據原因來估計結果的概率分布,p(時間|交通方式),就是似然估計。

老王去那個地方好幾趟,不管是什麼交通方式,得到了一組關於時間的概率分布。這種不考慮原因,只看結果的概率分布,p(時間),也有乙個名詞:evidence(不清楚合適的中文名是什麼)。

最後,甩出著名的貝葉斯公式:

1. 先驗 p(w):要去10公里外的某地,老王開車的可能性最大,p(開車)=0.6,而騎車和走路可能性為p(騎車)=0.3,p(步行)=0.1。

2. 似然 p(x|w):

開車時,花20分鐘比較多,也可能堵到2小時。大家想象乙個分布——橫軸為時間,從0到120分鐘;縱軸為概率,0到1;分布是一條曲線,線下面積為1(總概率為1),20分鐘時值為0.5,120分鐘時值為0.05。

相同的,有兩條騎車和步行時的條件概率圖,騎車時時間為60分鐘的概率最大,為0.4,其他時間概率相應地較小;步行時120分鐘的概率最大,為0.5。

3. 跡象/證據 p(x):

老王去過這個地方20次了,所花分鐘數分別為:20,30,20,60,90,120,20,60,120,110,40,50,60,70,90,120,110,20,70,90. 則可做出時間分布的直方圖,不做也行。

「20分鐘」這個值出現了4次,所以p(20)=4/20=0.2,同樣的,p(120)=3/20=0.15.

4. 後驗 p(w|x):

老王告訴妻子,這次去某地花了120分鐘。

妻子知道老王選交通方式的概率(先驗),知道3種交通方式對應的概率分布(似然),知道老王去的20次的時間分布(跡象/證據)。於是妻子用貝葉斯公式,就能知道花了120分鐘的老王,採用的交通方式應該是什麼。

由p(w|x) = p(x|w)*p(w)/p(x),有

p(步行|時間=120分鐘) = p(120分鐘|步行) * p(步行) / p(120分鐘)。

由資料知,p(步行)=0.1,p(120分鐘|步行)=0.5,p(120分鐘) = 0.15。代入三個數字,求出值為0.333.

類似的,可求出p(騎車|時間=120分鐘) =0.002,p(開車|時間=120分鐘) =0.02。其中步行的概率最大,所以妻子覺得老王最有可能是走著去的。這就是後驗啦。

哎不知道有沒有理解的不對的,初學者理解比較淺,這個例子裡先驗和似然也是經驗值提供的,不來自樣本,分類屬性值也只有「交通方式」乙個,沒有「路況」、「身體條件」什麼的。大家有不同意見還請指出。

reference:

先驗分布 後驗分布 似然估計

貝葉斯公式 p x p x p p x p theta x frac p p x p x p x p xx x 觀測得到的資料 結果 theta 決定資料分布的引數 原因 p x p theta x p x 後驗概率,已知結果找原因 p x p x theta p x 似然估計,已經原因求結果 p ...

機器學習之先驗分布,後驗分布,共軛先驗分布

共軛先驗分布的提出 某觀測資料服從概率分布p 當觀測到新的資料時,思考下列問題 1.能否根據新觀測資料x更新引數 2.根據新觀測的資料可以在多大的程度上改變引數 r 3.當重新估計得到 時,給出的新引數數值 的新概率分布p x 分析 根據貝葉斯公式 p x p x p p x 其中p x 是在已知 ...

先驗概率 後驗概率 似然函式

以下以因果關係來刻畫先驗概率 後驗概率以及似然概率的關係。先驗概率 根據經驗得到的結果的概率 已知結果 後驗概率 在知道原因的情況下,求結果發生的概率 執因求果 似然概率 知道結果的情況下,求最可能導致結果發生的原因 知果求因 舉個例子 已知車禍有一定概率會導致堵車,此處車禍是因,堵車是果。p 堵車...