實戰中的貝葉斯

2022-06-11 15:00:09 字數 3545 閱讀 4234

貝葉斯,人人都學過一點,大部分人都以為自己懂了,不就是乙個條件概率公式嗎,其實還真沒那麼簡單,想完全學通弄透還是要花點力氣的

下面的都是你必須弄懂的:

貝葉斯學派和頻率學派的區別之一是特別重視先驗資訊對於inference的影響。

我們的概率主要有如下幾種:p(θ)(先驗分布), p(θ|x)(後驗分布), p(x), p(x|θ) (似然函式)

它們之間的關係可以通過貝葉斯公式進行連線:後驗分布 = 似然函式* 先驗分布/ p(x)

之所以採用共軛先驗的原因是可以使得先驗分布和後驗分布的形式相同,這樣一方面合符人的直觀(它們應該是相同形式的)另外一方面是可以形成乙個先驗鏈,即現在的後驗分布可以作為下一次計算的先驗分布,如果形式相同,就可以形成乙個鏈條。

如果先驗分布和似然函式可以使得先驗分布和後驗分布有相同的形式,那麼就稱先驗分布與似然函式是共軛的。

先理清楚概率論中的三個重要公式:

1.貝葉斯公式:

p(a∩b) = p(a)*p(b|a) = p(b)*p(a|b)

p(b|a) = p(a|b)*p(b) / p(a)

其中p(b|a) 和p(a|b)分別為後驗概率和先驗概率(不同樣本空間的問題)都是後驗概率,p(a)和p(b)才是先驗,先驗是任何我們已知的或者假設的, 貝葉斯就是根據已知來求未知。(這麼解釋是絕對錯誤的)

就是兩個事件同時發生的概率,等於其中乙個事件發生的概率,乘以該事件發生概率下另乙個事件發生的概率,這裡只要求兩個事件相互獨立(相互獨立不等於互斥)。這個模型可以推廣到生活中任意的兩個相互獨立的事件上,韋恩圖是直觀的展示。

這個公式最大的用處就是恒等帶來的額外的作用,我們很容易得到乙個先驗知識,但我們想要的是另外乙個東西,叫做後驗知識,在韋恩圖中,我們已知p(b|a) ,但我們不知道p(a|b),即右邊粉紅的圖實際上是乙個動態的圖。

為什麼實驗越完備,貝葉斯公式中的先驗就越不重要?

為什麼說貝葉斯是根據實驗所得對我們已知的知識進行修正的模型?

小知識:條件概率可以認為是縮小了樣本空間之後的概率。

2.全概率公式:

公式表示若事件a1,a2,…,an構成乙個完備事件組且都有正概率,則對任意乙個事件b都有公式成立。

全概率公式就是最基本的加法公式,將樣本空間合理分割,最後再加起來。

貝葉斯公式是全概率公式的逆運算

3.乘法公式:

p(ab) = p(a|b)p(b)

相互獨立事件的運算,相互獨立的由來?相互獨立的運用?獨立與相關?

實際中,在序列問題上,對於某乙個位點,有兩個事件,一是該位點出現我們這個觀察值及其他的概率p(obs,n,r,s),一是我們這個位點出現某個特定genotype的概率p(g)。

我們真正想要的是p(g|obs,n,r,s),即該位點觀察值為obs等等時,出現g的概率,這個是我們的後驗,我們不知道。我們知道的是p(obs,n,r,s|g),即真實情況下,出現這些的概率,這個是我們的先驗。

我們的先驗有:預先知道的該位點的n、r、s、突變率。

我們求得的最大後驗就可以看做是該位點真實的genotype。

整個過程我們借用了ref來group reads?還借用了gatk的call genotype功能,pl列就是該位點的基因型genotype及其likelihood。

question: how to interpret genotype likelihoods?

pl is log10-scaled and normalized

likelihood ratio = likelihood(most likely genotype)/(likelihood(alternative genotype 1) + likelihood(alternative genotype 2)

genotype likelihoods

genotype likelihood and qual – gatk

pl = -10 * log[p(data|genotype)]

hc step 4: assigning per-sample genotypes

概率(probability)、似然(likelihood)、極大似然法

概率是給定某一引數值,求某一結果的可能性。

似然是給定某一結果,求某一引數值的可能。最大似然法就是用來求最優引數的!可以乙個乙個試,也可以直接用極大似然函式求解:

l(x1,x2……xn,p)=c(n,x1)*c(n,x2)……*c(n,xn)*p^(∑xi)*(1-p)^(nn-∑xi);

取對數ln l=ln(c(n,x1)*c(n,x2)……*c(n,xn))+(∑xi)lnp+(nn-∑xi)ln(1-p);對p求導;d(ln l)/dp=(∑xi)/p-(nn-∑xi)/(1-p);在p=(∑xi)/nn時,d(ln l)/dp=0,且此時l取最大值;所以p的極大似然估計是p=(∑xi)/nn=26/50=0.52(與真實值0.5相比,誤差很小)

基本所有的變化都是圍繞這三個公式展開,我還是只能看懂,什麼時候自己能將他熟練的運用到實際中呢?

概率與似然  同一篇文章,不同時候來讀果然感覺不一樣,尤其在這個方面。

條件概率,p(a|b)表示在b事件發生的情況下,a事件發生的概率,就是樣本空間縮小到b,再計算a發生的概率

先驗和後驗是相對的,根據我們已有的經驗得到的就是先驗,先驗一般不是條件概率如p(a);後驗就是條件概率如p(a|b)

bayes法則:後驗概率 = 標準相似度 * 先驗概率   (貝葉斯法則,先驗概率與後驗概率的區別)

貝葉斯法則,先驗概率,後驗概率,最大後驗概率

後驗概率( posterior probability)是指在得到「結果」的資訊後重新修正的概率,如貝葉斯公式中的,是「執果尋因」問題中的「因」。

首先打好2個基礎

1.這兩類均是由2個階段組成

2.條件概率的思想

1.全概公式:首先建立乙個完備事件組的思想,其實全概就是已知第一階段求第二階段,比如第一階段分a b c三種,然後a b c中均有d發生的概率,最後讓你求d的概率

p(d)=p(a)*p(d/a)+p(b)*p(d/b)+p(c)*p(d/c)

2.貝葉斯公式,其實原本應該叫逆概公式,為了紀念貝葉斯這樣取名而已.在全概公式理解的基礎上,貝葉斯其實就是已知第二階段反推第一階段,這時候關鍵是利用條件概率公式做個乾坤大挪移,跟上面建立的a b c d模型一樣,已知p(d),求是在a發生下d發生的概率,這就是貝葉斯

p(a/d)=p(ad)/p(d)=p(a)*p(d/a)/p(d)

§1.6全概率公式與貝葉斯公式  (例子講得很好)

經典統計學

經典文章:從貝葉斯方法談到貝葉斯網路

什麼叫共軛先驗或者共軛分布?

先驗概率 後驗概率 似然 極大似然估計 極大後驗估計 共軛 概念

貝葉斯 01 初識貝葉斯

分割線 分割線 分割線 分割線 分割線 分割線 分割線 分割線 分割線 分割線 分割線 分割線 分割線 最先知道貝葉斯公式還是四年前的概率論和數理統計課上,時間也很久了,具體內容早已經忘記,不過畢竟曾經學過,重新看過還是得心應手的。大概用兩三篇的內容來介紹一下貝葉斯,以及機器學習中很重要的一部分 樸...

貝葉斯 02 理解貝葉斯

首先簡略回顧一下,全概率和貝葉斯。其實這兩者是密不可分的,互相之間是乙個順序問題,全概率反過去就是貝葉斯,這類問題只需要區分清楚是知道原因求結果,還是知道結果尋原因就可以了。全概率公式是計算由諸多原因而導致的某件複雜事情發生的概率,而貝葉斯就是在這件複雜的事情已經發生的前提下,去尋找諸多原因中,某一...

sklearn之樸素貝葉斯實戰

multinomialnb 實現了資料服從多項式分布時的貝葉斯演算法。import numpy as np 隨機產生0 4之間的整數,產六組,一組100個 x np.random randint 5,size 6,10 y np.array 1,2,3,4,5,6 from sklearn.baye...