白板機器學習筆記 P60 P65 EM演算法

2021-10-25 22:32:47 字數 2323 閱讀 7706

p60 em演算法1 - 收斂性證明

em演算法核心思想:是具有隱變數的混合模型的引數估計。本節主要證明了分步迭代更新引數θ時,新的θt+1一定會使x取的比上一步θt更高的置信度p(x|θ),這樣演算法才能保證收斂。

前置知識:首先要理解什麼是含有隱變數的混合模型。我們之前處理的都是資料滿足單一分布的情況,如下圖(1)所示,我們列出資料集x的極大似然p(x|θ)之後直接求導,即可求出(1)中正態分佈的引數,也就得到了模型。但是如(2)所示,當整體模型(虛線)是由多個子模型疊加而成的,整體模型就是由多個模型的多個引數共同表示的,這時當我們對其中乙個模型的引數求導,剩下的式子中仍有多個引數還是無法求解。這時乙個簡單的想法就是:對於某個樣本xi我們分別把它放在不同子模型的分布中求概率,再把概率加起來。這樣我們就不用直接求整體模型了,而是把整體模型解耦成乙個個簡單的子模型,我們又能用前邊的直接求導計算的方法了。這個所謂的xi屬於哪個子模型其實就是隱變數z,z其實就是子模型的類別。因為我們要求出所有子模型的概率之後再加起來,所以也就把p(x|θ)變成了 ∫ p(x,z|θ) dz。這裡還有乙個問題就是:如(2)所示,不同分布對應的資料量可能不同,資料量越多形成的分布肯定越準確,我們也應該給予這個分布更高的權重。那麼究竟應該給每個分布多大權重呢?我們用乙個分布p(z|x,θ)來表示,它的意思就是在已知樣本為x和模型引數為θ的情況下,分布為z的權重。所以最終我們單分布的似然函式p(x|θ)就變成了含隱變數z的多模型概率加權疊加 ∫ p(x,z|θ)· p(z|x,θ) dz。

前置知識可以參考徐亦達em演算法

p61 em演算法2 - 公式匯出之elbo+kl divergence

本節內容:是用kl divergence推導出①中θ的迭代公式。可以看到em演算法包含 e-step 和 m-step,e就是expectation或者說資料真實分布的下界elbo(evidence of lower bound),就是求出 ∫ p(x,z|θ)· p(z|x,θ(t)) dz,這個式子不是乙個值,而是乙個θ的函式。m就是maximization,最大化上邊的θ函式。本節推導其實和上一節收斂性的推導一樣,只不過這裡是對乙個預設的分布q(z)積分,上一節是直接告訴了按p(z|x,θ)積分。這裡的elbo就是上一節的q(θ,θ(t)),這裡的kl(q(z)||p(z|x,θ))就是上一節的h(θ,θ(t))。這裡q(z)=p(z|x,θ)的條件是根據kl(q(z)||p(z|x,θ))=0這個條件求出的。可以看出em優化演算法和梯度下降優化演算法的不同,梯度下降是直接在原函式上求最大值,em是不斷提高下界的最大值。

p62 em演算法3 - 公式匯出之elbo+jensen不等式

本節內容:如①所示,還是在優化p(x|θ)= ∫ p(x,z|θ) dz的過程中構造了隱變數z的分布q(z),然後利用②jensen不等式推出q(z)=p(z|x,θ),依然是乙個對下界的優化。

p64 em演算法5 - 廣義em

本節內容:廣義em優化的目標就是概率生成模型,也即先從分布q(z)中挑出乙個子模型,再優化子模型的引數θ。如gmm、hmm都是這種概率生成模型,兩者的主要區別是挑選子模型的分布q(z)不同,gmm是離散概率分布,hmm是前向依賴的馬氏鏈。gmm和hmm挑好子模型之後,直接從子模型中發射出(emit)樣本即可。所以我們可以看到概率生成模型主要優化的物件有分布q(z)和引數θ。像最早期我們優化單變數高斯模型的mle時那樣,先固定乙個變數θ去優化q,再代入上一步找到的最優q去優化θ,這樣交替迭代直至收斂。前邊的狹義em只不過是假定了q(z)=p(z|x,θ),但實際上後驗概率p(z|x,θ)很多時候並不能求出來,這就需要用後邊的變分推斷和蒙特卡洛方法去近似這個後驗概率。

p65 em演算法6 - em的變種

本節內容:像em演算法這樣,先固定一部分變數去優化另一部分,再固定另一部分去優化這一部分,這樣交替進行直至收斂的方法其實叫做 座標上公升法smo。上圖方框中①表示梯度下降法優化的曲線,②表示座標上公升法優化的曲線,可以看出在二維引數空間中,②每次只沿著一條軸優化,也即是固定一部分引數優化另一部分引數的意思,在某乙個方向上是固定的。

白板機器學習筆記 P36 P38核方法

p36 核方法1 背景介紹 背景 當資料線性可分時,我們用感知機演算法和硬間隔svm等線性分類演算法就可以簡單的分類 當資料存在個別點不能線性可分時,我們可以引入軟間隔或者懲罰項等 但是當資料完全非線性可分時,我們只能考慮 一是用深度學習這樣的分層方法擬合非線性函式,二是將資料對映到高維空間從而變得...

機器學習 白板推導 P6 1 SVM

s vm svmsv m有三寶 間隔 對偶 核技巧 s vm hard margin svm soft margin svm kernel svm end svm hard mar gins vmso ft m argi nsvm kern elsv m har d ma rgin svmhard ...

機器學習筆記P1 李巨集毅2019

該部落格將介紹機器學習課程by李巨集毅的前兩個章節 概述和回歸。視屏鏈結1 introduction 視屏鏈結2 regression 該課程將要介紹的內容如下所示 從最左上角開始看 regression 回歸 輸出的目標是乙個數值。如 明天的pm2.5數值。接下來是classification 分...