p(x,y) = x和y同時發生的概率。當x與y是兩個沒有任何聯絡的事情的時候那麼p(x,y)=p(x)p(y)。比如:你今天是否吃飯這個事和太陽是否從東邊出來這就是兩個沒有任何聯絡的事。你今天吃不吃飯跟太陽出不出來並沒有任何關係。兩件事沒有任何聯絡在學術上叫做這兩件事相互獨立,你這件事發生不干擾我,我這件事發生也不干擾你。
那有哪些事件是不相互獨立的呢?你今天是否吃飯這個事,與你今天參加馬拉松拿第一名是不相互獨立的。如果在你今天會吃飯的條件下馬拉松拿第一的概率會更高。像這種有前提條件的事件發生的概率叫做條件概率。用公式表示就是p(x|y)=p(馬拉松第一|今天吃飯)。注意:只要見到p(x|y)一定要自動把它翻譯成:“在y發生的情況下,x發生的概率”。
條件概率計算公式:p(x
∣y)=
p(x,
y)p(
y)p(
x∣y)
=p(y
)p(x
,y)
。這公式怎麼得來的呢?
很簡單,遇到你記不住的公式你就畫韋恩圖。
p(x∣y)
p(x∣
y)表示y已經發生的條件下,也就是說在y那個圓中,x的的佔比。這就很容得到p(x
∣y)=
p(x,
y)p(
y)p(
x∣y)
=p(y
)p(x
,y)
。這個公式非常有用,一般很多不好求的概率可以通過全概率公式把各種情況的概率求和即可得到最終的概率。
比如p(x)概率不知道我可以通過p(x
)=∑y
ip(x
∣yi)
p(yi
)p(x
)=∑y
ip
(x∣y
i)p
(yi
)這個方式來求概率。
貝葉斯公式就是條件概率。在前面條件概率中我們提到了p(x
,y)=
p(x∣
y)p(
y)=p
(y∣x
)p(x
)p(x
,y)=
p(x∣
y)p(
y)=p
(y∣x
)p(x
)。而貝葉斯公式就是:p(x
∣y)p
(y)=
p(y∣
x)p(
x)p(
x∣y)
p(y)
=p(y
∣x)p
(x)。由這個公式我們可以得到:
在全概率公式中我們提到了p(x),p(y)這些概率可以通過另外一種方式求得。p(
x)=∑
yip(
x∣yi
)p(y
i)p(
x)=∑
yi
p(x∣
yi)
p(yi
),p(
y)=∑
xip(
y∣xi
)p(x
i)p(
y)=∑
xi
p(y∣
xi)
p(xi
)所以有:p(
x∣y)
=p(y
∣x)p
(x)p
(y)=
p(y∣
x)p(
x)∑x
ip(y
∣xi)
p(xi
)p(x
∣y)=
p(y)
p(y∣
x)p(
x)=
∑xi
p(y
∣xi
)p(x
i)p
(y∣x
)p(x
)p(
y∣x)
=p(x
∣y)p
(y)p
(x)=
p(x∣
y)p(
y)∑y
ip(x
∣yi)
p(yi
)p(y
∣x)=
p(x)
p(x∣
y)p(
y)=
∑yi
p(x
∣yi
)p(y
i)p
(x∣y
)p(y
)在貝葉斯公式p(x
∣y)=
=p(y
∣x)p
(x)p
(y)=
p(y∣
x)p(
x)∑x
ip(y
∣xi)
p(xi
)p(x
∣y)=
=p(y
)p(y
∣x)p
(x)
=∑xi
p(
y∣xi
)p(
xi)
p(y∣
x)p(
x)中:
舉個例子:假如一個機器人走路,不開雷達情況下根據自己的速度和方向估計出現在離某個障礙物距離是x的概率是p(x)。然後它突然開了雷達花了1秒看了下障礙物。在當機器人離目標距離是x的情況下感測器輸出距離值是y的概率是p(y|x)。在感測器它以往的資料統計中發現數值y出現的概率是p(y)。在知道感測器測量值是y的情況下,機器人離目標距離是x的概率是p(x|y)。
注意:我們會發現p(y)是p(x
∣y)=
=p(y
∣x)p
(x)p
(y)p
(x∣y
)==p
(y)p
(y∣x
)p(x
)中唯一一個跟x沒有關係的概率值。這個發現有什麼用呢?這意味著p(y)是一個常數,我們只用計算一次即可。
因此有些書會這麼寫貝葉斯公式:p(x
∣y)=
=p(y
∣x)p
(x)p
(y)=
ηp(y
∣x)p
(x)p
(x∣y
)==p
(y)p
(y∣x
)p(x
)=η
p(y∣
x)p(
x)。其中η叫做歸一化常數。
當我們判斷一個人的性別的時候,我們有可能同時得到兩個資訊:有口紅,長頭髮。我們平常見到的貝葉斯公式一般是p(x|y)只有一個資訊y。p(
x∣y,
z)=p
(x,y
,z)p
(y,z
)=p(
y∣x,
z)p(
x,z)
p(y∣
z)p(
z)=p
(y∣x
,z)p
(x∣z
)p(z
)p(y
∣z)p
(z)=
p(y∣
x,z)
p(x∣
z)p(
y∣z)
p(x∣
y,z)
=p(y
,z)p
(x,y
,z)
=p(y
∣z)p
(z)p
(y∣x
,z)p
(x,z
)=p
(y∣z
)p(z
)p(y
∣x,z
)p(x
∣z)p
(z)
=p(y
∣z)p
(y∣x
,z)p
(x∣z
)p(
x,y∣
z)=p
(x,y
,z)p
(z)=
p(y∣
x,z)
∗p(x
,z)p
(z)=
p(y∣
x,z)
p(x∣
z)p(
z)p(
z)=p
(y∣x
,z)p
(x∣z
)p(x
,y∣z
)=p(
z)p(
x,y,
z)=
p(z)
p(y∣
x,z)
∗p(x
,z)
=p(z
)p(y
∣x,z
)p(x
∣z)p
(z)
=p(y
∣x,z
)p(x
∣z)[1]
[2] 《bayesian reasoning and machine learning》