快速理解EM演算法

2021-08-26 20:18:09 字數 4552 閱讀 1627

如果使用基於最大似然估計的模型，模型中存在隱變數，就要用em演算法做引數估計。個人認為，理解em演算法背後的idea，遠比看懂它的數學推導重要。idea會讓你有乙個直觀的感受，從而明白演算法的合理性，數學推導只是將這種合理性用更加嚴謹的語言表達出來而已。打個比方，乙個梨很甜，用數學的語言可以表述為糖分含量90%，但只有親自咬一口，你才能真正感覺到這個梨有多甜，也才能真正理解數學上的90%的糖分究竟是怎麼樣的。如果em是個梨，本文的目的就是帶領大家咬一口。

假設現在有兩枚硬幣1和2，,隨機拋擲後正面朝上概率分別為p1，p2。為了估計這兩個概率，做實驗，每次取一枚硬幣，連擲5下，記錄下結果，如下：

硬幣結果統計1

正正反正反

3正-2反

2反反正正反

2正-3反

1正反反反反

1正-4反

2正反反正正

3正-2反

1反正正反反

2正-3反

可以很容易地估計出p1和p2，如下：

p1 = （3+1+2）/ 15 = 0.4

p2= （2+3）/10 = 0.5

到這裡，一切似乎很美好，下面我們加大難度。

還是上面的問題，現在我們抹去每輪投擲時使用的硬幣標記，如下：

硬幣結果

統計unknown

正正反正反

3正-2反

unknown

反反正正反

2正-3反

unknown

正反反反反

1正-4反

unknown

正反反正正

3正-2反

unknown

反正正反反

2正-3反

好了，現在我們的目標沒變，還是估計p1和p2，要怎麼做呢？

顯然，此時我們多了乙個隱變數z，可以把它認為是乙個5維的向量（z1,z2,z3,z4,z5)，代表每次投擲時所使用的硬幣，比如z1，就代表第一輪投擲時使用的硬幣是1還是2。但是，這個變數z不知道，就無法去估計p1和p2，所以，我們必須先估計出z，然後才能進一步估計p1和p2。

但要估計z，我們又得知道p1和p2，這樣我們才能用最大似然概率法則去估計z，這不是雞生蛋和蛋生雞的問題嗎，如何破？

答案就是先隨機初始化乙個p1和p2，用它來估計z，然後基於z，還是按照最大似然概率法則去估計新的p1和p2，如果新的p1和p2和我們初始化的p1和p2一樣，請問這說明了什麼？（此處思考1分鐘）

這說明我們初始化的p1和p2是乙個相當靠譜的估計！

就是說，我們初始化的p1和p2，按照最大似然概率就可以估計出z，然後基於z，按照最大似然概率可以反過來估計出p1和p2，當與我們初始化的p1和p2一樣時，說明是p1和p2很有可能就是真實的值。這裡面包含了兩個互動的最大似然估計。

如果新估計出來的p1和p2和我們初始化的值差別很大，怎麼辦呢？就是繼續用新的p1和p2迭代，直至收斂。

這就是下面的em初級版。

我們不妨這樣，先隨便給p1和p2賦乙個值，比如：

p1 = 0.2

p2 = 0.7

然後，我們看看第一輪拋擲最可能是哪個硬幣。

如果是硬幣1，得出3正2反的概率為 0.2*0.2*0.2*0.8*0.8 = 0.00512

如果是硬幣2，得出3正2反的概率為0.7*0.7*0.7*0.3*0.3=0.03087

然後依次求出其他4輪中的相應概率。做成**如下：

輪數若是硬幣1

若是硬幣2

10.00512

0.03087

20.02048

0.01323

30.08192

0.00567

40.00512

0.03087

50.02048

0.01323

按照最大似然法則：

第1輪中最有可能的是硬幣2

第2輪中最有可能的是硬幣1

第3輪中最有可能的是硬幣1

第4輪中最有可能的是硬幣2

第5輪中最有可能的是硬幣1

我們就把上面的值作為z的估計值。然後按照最大似然概率法則來估計新的p1和p2。

p1 = （2+1+2）/15 = 0.33

p2=（3+3）/10 = 0.6

設想我們是全知的神，知道每輪拋擲時的硬幣就是如本文第001部分標示的那樣，那麼，p1和p2的最大似然估計就是0.4和0.5（下文中將這兩個值稱為p1和p2的真實值）。那麼對比下我們初始化的p1和p2和新估計出的p1和p2：

初始化的p1

估計出的p1

真實的p1

初始化的p2

估計出的p2

真實的p2

0.20.33

0.40.7

0.60.5

看到沒？我們估計的p1和p2相比於它們的初始值，更接近它們的真實值了！

可以期待，我們繼續按照上面的思路，用估計出的p1和p2再來估計z，再用z來估計新的p1和p2，反覆迭代下去，就可以最終得到p1 = 0.4，p2=0.5，此時無論怎樣迭代，p1和p2的值都會保持0.4和0.5不變，於是乎，我們就找到了p1和p2的最大似然估計。

這裡有兩個問題：

1、新估計出的p1和p2一定會更接近真實的p1和p2？

答案是：沒錯，一定會更接近真實的p1和p2，數學可以證明，但這超出了本文的主題，請參閱其他書籍或文章。

2、迭代一定會收斂到真實的p1和p2嗎？

答案是：不一定，取決於p1和p2的初始化值，上面我們之所以能收斂到p1和p2，是因為我們幸運地找到了好的初始化值。

下面，我們思考下，上面的方法還有沒有改進的餘地？

我們是用最大似然概率法則估計出的z值，然後再用z值按照最大似然概率法則估計新的p1和p2。也就是說，我們使用了乙個最可能的z值，而不是所有可能的z值。

如果考慮所有可能的z值，對每乙個z值都估計出乙個新的p1和p2，將每乙個z值概率大小作為權重，將所有新的p1和p2分別加權相加，這樣的p1和p2應該會更好一些。

所有的z值有多少個呢？顯然，有2^5=32種，需要我們進行32次估值？？

不需要，我們可以用期望來簡化運算。

輪數若是硬幣1

若是硬幣2

10.00512

0.03087

20.02048

0.01323

30.08192

0.00567

40.00512

0.03087

50.02048

0.01323

利用上面這個表，我們可以算出每輪拋擲中使用硬幣1或者使用硬幣2的概率。比如第1輪，使用硬幣1的概率是：

0.00512/(0.00512+0.03087)=0.14

使用硬幣2的概率是1-0.14=0.86

依次可以算出其他4輪的概率，如下：

輪數z_i=硬幣1

z_i=硬幣2

10.14

0.86

20.61

0.39

30.94

0.06

40.14

0.86

50.61

0.39

上表中的右兩列表示期望值。看第一行，0.86表示，從期望的角度看，這輪拋擲使用硬幣2的概率是0.86。相比於前面的方法，我們按照最大似然概率，直接將第1輪估計為用的硬幣2，此時的我們更加謹慎，我們只說，有0.14的概率是硬幣1，有0.86的概率是硬幣2，不再是非此即彼。這樣我們在估計p1或者p2時，就可以用上全部的資料，而不是部分的資料，顯然這樣會更好一些。

這一步，我們實際上是估計出了z的概率分布，這步被稱作e步。

結合下表：

硬幣結果

統計unknown

正正反正反

3正-2反

unknown

反反正正反

2正-3反

unknown

正反反反反

1正-4反

unknown

正反反正正

3正-2反

unknown

反正正反反

2正-3反

我們按照期望最大似然概率的法則來估計新的p1和p2：

以p1估計為例，第1輪的3正2反相當於

0.14*3=0.42正

0.14*2=0.28反

依次算出其他四輪，列表如下：

輪數正面反面1

0.42

0.28

21.22

1.83

30.94

3.76

40.42

0.28

51.22

1.83

總計4.22

7.98

p1=4.22/(4.22+7.98)=0.35

可以看到，改變了z值的估計方法後，新估計出的p1要更加接近0.4。原因就是我們使用了所有拋擲的資料，而不是之前只使用了部分的資料。

這步中，我們根據e步中求出的z的概率分布，依據最大似然概率法則去估計p1和p2，被稱作m步。

以上，我們用乙個實際的小例子，來實際演示了em演算法背後的idea，共性存於個性之中，通過這個例子，我們可以對em演算法究竟在幹什麼有乙個深刻感性的認識，掌握em演算法的思想精髓。

理解EM演算法

em演算法應對的問題隨機變數x 中y為觀測變數，存在一部分不能直接觀測的變數z，因此不能直接使用最大似然方法估計引數。em基本思路 1 expectation 直接假設分布引數的初始值，求隱變數z期望,從而補全不完全觀測資料，相當於得到了完全變數x的觀測樣本。2 maximization 利用...

EM演算法簡單理解

在求解概率模型的時候，如果需要的變數都是觀測變數，不涉及到隱藏變數的話，可以使用極大似然或者貝葉斯估計來求解模型的引數。比如對於單高斯模型來講，如果知道觀測變數，那麼就可以使用極大似然或者最小均方誤差來估計高斯模型的均值和方差。如果模型同時包含觀察變數和隱藏變數的話，傳統的方法不能完成模型的估計，...

如何理解EM演算法

em演算法是極大似然解的一種演算法。當使用基於極大似然估計的模型時，模型中存在隱變數，就要用到em演算法進行引數估計。以投硬幣為例說明現有兩枚硬幣1和2，隨機投擲正面朝上的概率是p1和p2，然後為了估計這兩個概率做了上面的實驗，我們可以很容易得出 p1 3 1 2 15 0.4 p2 2 3 10...