高斯混合模型感性理解

1）k-means的缺點在於，它是乙個hard聚類的方法，比如有乙個點任何乙個聚類中心都不屬於，但是演算法仍然可能會把它強行劃分到乙個聚類中心去。對於乙個點，它屬不屬於某個聚類中心的可能性是個屬於(0,1)的整數值。

2）而高斯混合模型(gaussian mixture model) 就是一種soft聚類的方法，它建立在乙個重要的假設上，即任意形狀的概率分布都可以用多個高斯分布函式去近似。顧名思義，高斯混合模型是由很多個高斯分布組成的模型。

高斯混合模型（gaussian mixture model, gmm）是一種概率式的聚類方法，屬於生成式模型，它假設所有的資料樣本都是由某乙個給定引數的多元高斯分布所生成的。具體地，給定聚類個數k，對於給定樣本空間中的樣本 x ，乙個高斯混合模型的概率密度函式可以由k個多元高斯分布組合成的混合分布表示： p(

x)=∑

ki=1

wi⋅p

(x|μ

i,σi

) 其中p

(x|μ

,σ) 是以 μ 為均值向量， σ為協方差矩陣的多元高斯分布的概率密度函式，可以看出，高斯混合模型由k個不同的多元高斯分布共同組成，每乙個分布被稱為高斯混合模型中的乙個成分(component)，而 wi 為第i個多元高斯分布在混合模型中的權重，且有σk

i=1w

i=1 .每乙個component都滿足nk

∼(μk

,σk)

，k=1

,2,…

k 並對應的是乙個聚類中心，這個聚類中心的座標可以看作(μk,σk).對於乙個點xi它屬於第k個聚類中心的可能性wi

k 是乙個屬於0到1之間的概率值，也就是說在高斯混合模型中，乙個點可以看作是由多個component聯合生成的，wi

k 也是資料xi由第k個component生成的概率。

給定n個樣本的訓練集合x1

,x2,

…,xn

，嘗試利用多個高斯分布函式的線性組合擬合x的分布。那麼假設有k個高斯分布，每個分布稱為乙個component，則p(

x)=∑

k=1k

p(x|

k)w(

k)其中,p(

x|k)

～n(μ

k,σk

) ,設w(

k)=w

k 表示的是第k個高斯分布被選中的概率，也就是權重。現在的任務就是找到(μ

k,σk

,wk)

k=1,

…,k ，令已知的x1

,x2,

…,xn

分布存在的可能性最大，也就是似然函式最大。

因此有 l(

μ,σ,

ϕ|x)

=log

∏i=1

np(x

i;μ,

σ,ϕ)

=∑i=

1nlo

gp(x

i;μ,

σ,ϕ)

=∑i=

1nlo

g∑k=

1kp(

xi|μ

k,σk

)w(k

;ϕk)

對上式分別對於μ,ϕ,σ求偏導並置於0，就可以求出最優的引數。但是上式中又有加和，我們沒法直接用求導解方程的辦法直接求得最大值。

一般解高斯混合模型都用的是em演算法。

em演算法分為兩步：

在e-step中，估計資料由每個component生成的概率。而要估計資料由每個組份的高斯模型生成的概率就要知道每個高斯模型的分布，也即需要確定 μ,

σ,ϕ 等值。這裡假設 μ,

σ,ϕ 已知，對於每個資料 xi

來說，它由第k個component生成的概率為pi

k=wk

n(xi

|μk,

σk)∑

kk=1

wkn(

xi|μ

k,σk

) 在m-step中，估計每個component的引數μk

,σk,

wkk=

1,…k

。利用上一步得到的pi

k ,它是對於每個資料 xi

來說，它由第k個component生成的概率，也可以當做第k個component在生成這個資料上所做的貢獻，或者說，我們可以看作xi

這個值其中有pi

kxi 這部分是由第k個component所生成的。現在考慮所有的資料，可以看做第k個component生成了p1

kx1,

…,pn

kxn 這些點，由於每個component 都是乙個標準的 gaussian 分布，可以很容易的根據期望、方差的定義求出它們：μk

=1n∑

i=1n

pikx

i σk

=1n∑

i=1n

pik(

xi−μ

k)(x

i−μk

)t w

k=1n

∑i=1

npik

重複迭代前面兩步，直到似然函式的值收斂為止。

參考文件：

高斯混合模型 感性理解

高斯混合模型的理解

高斯混合模型

高斯混合模型

相關推薦

高斯混合模型感性理解