貝葉斯網路

1. 貝葉斯網路的定義

貝葉斯網路(bayesian network)，又稱信念網路(belief network)，或有向無環圖模型(directed acyclic graphical model)，是一種概率圖模型，於2023年由judea pearl首先提出。它是一種模擬人類推理過程中因果關係的不確定性處理模型，其網路拓樸結構是乙個有向無環圖(dag)。

貝葉斯網路的有向無環圖中的節點表示隨機變數

，它們可以是可觀察到的變數，或隱變數、未知引數等。認為有因果關係（或非條件獨立）的變數或命題則用箭頭來連線。若兩個節點間以乙個單箭頭連線在一起，表示其中乙個節點是「因(parents)」，另乙個是「果(children)」，兩節點就會產生乙個條件概率值。

總而言之，連線兩個節點的箭頭代表此兩個隨機變數是具有因果關係，或非條件獨立。

例如，假設節點e直接影響到節點h，即e→h，則用從e指向h的箭頭建立結點e到結點h的有向弧(e,h)，權值(即連線強度)用條件概率p(h|e)來表示，如下圖所示：

簡言之，把某個研究系統中涉及的隨機變數，根據是否條件獨立繪製在乙個有向圖中，就形成了貝葉斯網路。其主要用來描述隨機變數之間的條件依賴，用圈表示隨機變數(random variables)，用箭頭表示條件依賴(conditional dependencies)。

令g = (i,e)表示乙個有向無環圖(dag)，其中i代表圖形中所有的節點的集合，而e代表有向連線線段的集合，且令x = (xi)i ∈ i為其有向無環圖中的某一節點i所代表的隨機變數，若節點x的聯合概率可以表示成：

如下圖所示，便是乙個簡單的貝葉斯網路，因為a導致b，a和b導致c，所以有

2. 貝葉斯網路的三種結構形式

（2）x1和x2獨立（對應head-to-head）；

（3）x6和x7在x4給定的條件下獨立（對應tail-to-tail）。

根據上圖，第1點可能很容易理解，但第2、3點中所述的條件獨立是啥意思呢？其實第2、3點是貝葉斯網路中3種結構形式中的其中二種。為了說清楚這個問題，需要引入d-separation（d-分離）這個概念。

d-separation是一種用來判斷變數是否條件獨立的圖形化方法。換言之，對於乙個dag(有向無環圖)e，d-separation方法可以快速的判斷出兩個節點之間是否是條件獨立的。

形式1：head-to-head

所以有：p(a,b,c) = p(a)*p(b)*p(c|a,b)成立，化簡後可得：

即在c未知的條件下，a、b被阻斷(blocked)，是獨立的，稱之為head-to-head條件獨立，對應本節中最開始那張圖中的「x1、x2獨立」。

形式2：tail-to-tail

貝葉斯網路的第二種結構形式如下圖所示

（1）在c未知的時候，有：p(a,b,c)=p(c)*p(a|c)*p(b|c)，此時，沒法得出p(a,b) = p(a)p(b)，即c未知時，a、b不獨立。

所以，在c給定的條件下，a，b被阻斷(blocked)，是獨立的，稱之為tail-to-tail條件獨立，對應本節中最開始那張圖中的「x6和x7在x4給定的條件下獨立」。

形式3：head-to-tail

貝葉斯網路的第三種結構形式如下圖所示：

還是分c未知跟c已知這兩種情況：

（1）c未知時，有：p(a,b,c)=p(a)*p(c|a)*p(b|c)，但無法推出p(a,b) = p(a)p(b)，即c未知時，a、b不獨立。

（2）c已知時，有：p(a,b|c)=p(a,b,c)/p(c)，且根據p(a,c) = p(a)*p(c|a) = p(c)*p(a|c)，可化簡得到：

根據之前對head-to-tail的講解，我們已經知道，在xi給定的條件下，xi+1的分布和x1,x2…xi-1條件獨立。意味著啥呢？意味著：xi+1的分布狀態只和xi有關，和其他變數條件獨立。通俗點說，當前狀態只跟上一狀態有關，跟上上或上上之前的狀態無關。這種順次演變的隨機過程，就叫做馬爾科夫鏈（markov chain）。且有：

（1）a和b的「head-to-tail型」和「tail-to-tail型」路徑都通過c；

（2）a和b的「head-to-head型」路徑不通過c以及c的子孫；

最後，舉例說明上述d-separation的3種情況（即貝葉斯網路的3種結構形式），則是如下圖所示：

上圖中左邊部分是head-to-tail，給定 t 時，a 和 x 獨立；右邊部分的右上角是tail-to-tail，給定s時，l和b獨立；右邊部分的右下角是head-to-head，未給定d時，l和b獨立。

其中，各個單詞、表示式表示的含義如下：

lung cancer簡記為c，bronchitis簡記為b，dyspnoea簡記為d，且c = 0表示lung cancer不發生的概率，c = 1表示lung cancer發生的概率，b等於0（b不發生）或1（b發生）也類似於c，同樣的，d=1表示d發生的概率，d=0表示d不發生的概率，便可得到dyspnoea的一張概率表，如上圖的最右下角所示。

**

貝葉斯網路

貝葉斯網路

建立貝葉斯網路

PRML 貝葉斯網路

貝葉斯網路

貝葉斯網路

建立貝葉斯網路

PRML 貝葉斯網路

相關推薦