聚類的一些評價指標

什麼是聚類

聚類簡單的說就是要把乙個文件集合根據文件的相似性把文件分成若干類，但是究竟分成多少類，這個要取決於文件集合裡文件自身的性質。下面這個圖就是乙個簡單的例子，我們可以把不同的文件聚合為3類。另外聚類是典型的無指導學習，所謂無指導學習是指不需要有人干預，無須人為文件進行標註。

聚類的評價

既然聚類是把乙個包含若干文件的文件集合分成若干類，像上圖如果聚類演算法應該把文件集合分成3類，而不是2類或者5類，這就設計到乙個如何評價聚類結果的問題。下面介紹幾種聚類演算法的評價指標，看下圖，

如圖認為x代表一類文件，o代表一類文件，方框代表一類文件，完美的聚類顯然是應該把各種不同的圖形放入一類，事實上我們很難找到完美的聚類方法，各種方法在實際中難免有偏差，所以我們才需要對聚類演算法進行評價看我們採用的方法是不是好的演算法。

評價方法一：purity

purity方法是極為簡單的一種聚類評價方法，只需計算正確聚類的文件數占總文件數的比例：

其中ω = 是聚類的集合ωk表示第k個聚類的集合。c = 是文件集合，cj表示第j個文件。n表示文件總數。

如上圖的purity = ( 3+ 4 + 5) / 17 = 0.71

其中第一類正確的有5個，第二個4個，第三個3個，總文件數17。

purity方法的優勢是方便計算，值在0～1之間，完全錯誤的聚類方法值為0，完全正確的方法值為1。同時，purity方法的缺點也很明顯它無法對退化的聚類方法給出正確的評價，設想如果聚類演算法把每篇文件單獨聚成一類，那麼演算法認為所有文件都被正確分類，那麼purity值為1！而這顯然不是想要的結果。

評價方法二：ri

實際上這是一種用排列組合原理來對聚類進行評價的手段，公式如下：

其中tp是指被聚在一類的兩個文件被正確分類了，tn是只不應該被聚在一類的兩個文件被正確分開了，fp只不應該放在一類的文件被錯誤的放在了一類，fn只不應該分開的文件被錯誤的分開了。對上圖

tp＋fp ＝ c(2,6) + c(2,6) + c(2,5) = 15 + 15 + 10 = 40 其中c(n,m)是指在m中任選n個的組合數。

tp = c(2,5) + c(2,4) + c(2,3) + c(2,2) = 20

fp = 40 - 20 = 20

相似的方法可以計算出tn = 72 fn = 24

所以ri ＝ ( 20 + 72) / ( 20 + 20 + 72 +24) = 0.68

評價方法三：f值

這是基於上述ri方法衍生出的乙個方法，

ri方法有個特點就是把準確率和召回率看得同等重要，事實上有時候我們可能需要某一特性更多一點，這時候就適合f值方法