K means,高斯混合模型及其EM步驟詳解

2021-08-18 06:07:44 字數 1462 閱讀 6078

作為機器學習演算法的一員,不同於svms(支援向量機),貝葉斯,logistic regression這些監督學習演算法,

k-means是一種無監督的聚類演算法。這裡的k表示類別的個數。

k-means演算法em步驟如下:

給定k的值,代表有k個不同的類別。

對每乙個類別,猜測其中心點。

在已知k個中心點的情況下,計算每個點到這k的中心點的距離,距離最小的那個中心點所代表的類就是該點所屬的類別,這樣對所有樣本完成分類。

針對每乙個類重新計算中心點,即將該類中所有點加和取平均,該均值則為新的中心點。

重複3~4的過程直到中心點收斂。

下圖顯示了k-means的每一步驟的結果:

高斯混合模型gmms gaussian mixture models

高斯模型即正態分佈,高斯混合模型就是幾個正態分佈的疊加,每乙個正態分佈代表乙個類別,所以和k-means

很像,高斯混合模型也可以用來做無監督的聚類分析。

高斯混合模型聚類演算法em步驟如下:

猜測有幾個類別,既有幾個高斯分布。

針對每乙個高斯分布,隨機給其均值和方差進行賦值。

針對每乙個樣本,計算其在各個高斯分布下的概率。

4. 針對每乙個高斯分布,每乙個樣本對該高斯分布的貢獻可以由其下的概率表示,如概率大則表示貢獻大,

反之亦然。這樣把樣本對該高斯分布的貢獻作為權重來計算加權的均值和方差。之後替代其原本的均值

和方差。

5. 重複3~4直到每乙個高斯分布的均值和方差收斂。

下圖顯示了高斯混合模型的聚類過程:    

注:當高斯混合模型的特徵值維數大於一維時,在計算加權的時候還要計算協方差,即要考慮不同維度之間的

相互關聯。

高斯混合模型和k-means的比較:

相同點:

分類受初始值的影響

可能限於區域性最優解

類別的個數只能靠猜測 (有k越大map最大後驗概率越大的趨勢)

不同點:

k-means是硬分類,要麼屬於這類,要麼屬於那類,而高斯混合式軟分類,乙個樣本60%屬於a,40%       屬於b。

多維的時候高斯混合在計算均值和方差時使用了協方差,應用了不同維度之間的相互約束關係。

高斯混合模型

本文就高斯混合模型 gmm,gaussian mixture model 引數如何確立這個問題,詳細講解期望最大化 em,expectation maximization 演算法的實施過程。多維變數x服從高斯分布時,它的概率密度函式pdf為 x是維度為d的列向量,u是模型期望,是模型方差。在實際應用...

高斯混合模型

高斯混合模型 本文就高斯混合模型 gmm,gaussian mixture model 引數如何確立這個問題,詳細講解期望最大化 em,expectation maximization 演算法的實施過程。多維變數x服從高斯分布時,它的概率密度函式pdf為 x是維度為d的列向量,u是模型期望,是模型方...

高斯混合模型

本文就高斯混合模型 gmm,gaussian mixture model 引數如何確立這個問題,詳細講解期望最大化 em,expectation maximization 演算法的實施過程。多維變數x服從高斯分布時,它的概率密度函式pdf為 x是維度為d的列向量,u是模型期望,是模型方差。在實際應用...