關於GSDMM的數學思考

可以在完備性和一致性之間保持平衡；

可以很好的處理稀疏、高緯度的短文本；

較其它的聚類演算法，在效能上表現更為突出。

圖1中的橫、縱座標分別表示評價度量方式和效能表現（基於資料視覺化的考慮，該效能表現基於不同的評價度量方式進行了歸一化處理），其中nmi（normalized mutual information）表示歸一化互資訊指數，h（homogeneity）表示一致性指數，c（completeness）表示完備性指數，ari（adjusted rand index）表示調整的蘭德指數，ami（adjusted mutual information）調整的互資訊指數。k-means是指k均值聚類演算法，是一種在資料探勘與分析領域非常流行的向量量化方法[4]；hac是一種層次聚類分析方法[5]；dmafp是一種具備去噪能力的長文字聚類方法[6]。

圖1 gsdmm和其它三種聚類演算法的在tweetset資料集上的效能表現

表1 gsdmm和其它兩種聚類演算法的在三個資料集上的效能表現

資料集指標

gsdmm

k-means

dmafp

tset

nmi0.874±0.007

0.732±0.007

0.852±0.009

h0.853±0.010

0.692±0.009

0.831±0.010

c0.896±0.006

0.775±0.006

0.875±0.007

ari0.693±0.043

0.133±0.030

0.657±0.051

ami0.831±0.012

0.639±0.011

0.814±0.015

sset

nmi0.896±0.006

0.759±0.008

0.868±0.008

h0.871±0.008

0.754±0.009

0.846±0.011

c0.921±0.005

0.764±0.009

0.892±0.007

ari0.746±0.014

0.262±0.017

0.703±0.018

ami0.853±0.009

0.708±0.008

0.819±0.012

tsset

nmi0.928±0.004

0.834±0.005

0.901±0.008

h0.911±0.005

0.836±0.005

0.889±0.006

c0.945±0.003

0.832±0.005

0.912±0.004

ari0.789±0.018

0.370±0.029

0.736±0.023

ami0.897±0.006

0.800±0.006

0.847±0.009

gsdmm採用模擬的方法——通過電影分組過程（movie group process，mgp）模擬gsdmm的聚類過程，通俗易懂地闡明了gsdmm聚類的全過程。mgp的模擬短文本聚類的內容如表2，短文本聚類問題可以看作通過每個學生看過的電影清單將學生分組的問題，自然的每一組的學生看的電影是類似的，即同一組的學生的電影清單是類似的，而不同組的學生的電影清單差異性是極大的。

表2 電影分組過程模擬短文本聚類的內容

mgp短文本聚類

所有學生

資料集、語料庫

每個學生、每個電影清單

每篇文件

學生看過的電影、電影清單上的電影

文件中的單詞

電影分組過程（mgp）如下：

1. 預定義k個組，將學生隨機分配到這k個組中 2. 針對每乙個學生，根據以下準則重新分配分組： a. 選擇學生更多的小組 b. 選擇電影清單更相似的小組 3. 將第2步反覆進行，直至保留下的組趨於穩定

gsdmm的第1條優點的完備性和一致性分別在準則a和準則b上得到體現，準則a讓族簇的完備性更強，即讓同乙個小組盡可能多的包含屬於該小組的學生，而準則b讓族簇的一致性更強，即讓有著同樣電影清單的學生盡可能的在乙個小組中。

gsdmm通過下面的條件概率進行每個學生的所屬的小組的重新分配：

上面的條件概率公式中橙色虛線框（左邊虛線框）中的部分對應準則a，藍色虛線框（右邊虛線框）中的部分對應準則b。公式中的符號說明見表3。

表3 條件概率中的符號說明

符號說明

$_}$ 文件所屬的族簇

$$某乙個族簇

$}_}}$ 除文件d所屬族簇外的所有族簇

$}$ 所有文件

$_}}$ 不包含文件d的族簇z中的文件數

$\alpha$ 引數alpha

$d$ 資料集中的所有文件數

$k$ 引數k

$w$ 某乙個單詞

$^_$ 文件d中單詞w的出現次數

$^_}$ 不包含文件d的族簇z中單詞w的出現次數

$_$ 文件d的單詞數

$_}$ 不包含文件d的族簇z中單詞數

$v$ 資料集的所有不重複單詞數

$\beta$ 引數beta

電影分組過程（實際上是gsdmm演算法）存在四個引數（除了表3中說明的三個引數，還有乙個是電影分組過程的第3步的隱含迭代次數），這四個引數對於模型的好壞有較大影響。引數k對於聚類族簇數量的影響見圖2，對於資料集tweetset，由圖可知初始族簇大小k值趨於300左右時，gsdmm的聚類效果基本與實際相符。引數alpha對於聚類族簇數量的影響見圖3，對於資料集tweetset，由圖可知引數alpha等於0.1時，gsdmm的聚類效果基本與實際相符。引數beta對於聚類族簇數量的影響見圖4，對於資料集tweetset，由圖可知引數beta等於0.08時，gsdmm的聚類效果基本與實際相符。迭代次數對於聚類族簇數量的影響見圖5，對於資料集tweetset，由圖可知迭代次數為20次時，gsdmm的聚類結果趨於平穩且效果基本與實際相符。

圖2 引數k對聚類族簇數量的影響

圖3 引數alpha對聚類族簇數量的影響

圖4 引數beta對聚類族簇數量的影響

圖5 迭代次數對聚類族簇數量的影響

上述gsdmm的四個引數為經驗引數，對於不同的資料集（各個資料集差異較大）最佳的引數取值也會不同。在實際應用中，當給定較好的經驗引數，gsdmm具備較好的聚類效果，這使得它具備較高的應用價值。

參考文獻

[1] acm sigkdd ——

[4] k-means clustering——

[5] hac——

[6] 《dirichlet process mixture model for document clustering with feature partition》——

關於GSDMM的數學思考

關於考研數學的衝刺複習迎考的思考

學習筆記19 關於數學建模的思考與總結

關於博弈的思考

關於GSDMM的數學思考

關於考研數學的衝刺複習迎考的思考

學習筆記19 關於數學建模的思考與總結

關於博弈的思考

相關推薦