聚類之效能度量詳解

聚類是什麼呢？我們都聽說過「物以類聚」，即把「志同道合」的資料分到一起歸為一類，不同類之間在」志向「上具有較大分歧。舉個栗子，茫茫人生中，我們普通大眾會被god根據緣分進行聚類，緣分好的話，會成為朋友，甚至成為了可以互訴衷腸，」餘生請指教「的男女盤友，那緣分不好的應該是一生從未謀面或者一面之緣或者是如《再見前任3》中那樣成為了最熟悉的陌生人…好像扯遠了。

言歸正傳，用標準的普通話來說，聚類是將資料集中的樣本劃分為若干個通常是不相交的子集，每個子集成為乙個「簇」，用正規的外星人語言來說，對於樣本d=

d =包含

m m

個無標記樣本，每個樣本xi

=' role="presentation">xi=

xi=是乙個

n n

維特徵向量，則聚類演算法將樣本集

d' role="presentation">d

d劃分為

k k

個不相交的簇

' role="presentation">

，其中cl′

∩l′≠

lcl=

∅ cl′

∩l′≠

lcl=

∅且d=

∪kl=

1cl d=∪

l=1k

cl，相應地，用λj

∈ λj∈

表示樣本xj

j的「簇標記」，即xj

∈cλj

x j∈

cλj。於是聚類的結果可用包含m個元素的簇標記，記向量λ=

(λ1;

λ2;.

..;λ

m)λ =(

λ1;λ

2;..

.;λm

)。舉個栗子，對於具有

10 10

個樣本的資料集

d d

，其中每個樣本xi

' role="presentation">xix

i含有2 2

維特徵，分成

2' role="presentation">2

2類的結果如下：

聚類通常用來對無標記訓練樣本的學習來揭示資料內在性質及規律，為進一步的資料分析提供基礎，是「無監督學習」中應用最廣的研究方法。那麼問題來了，如何衡量聚類結果的好壞呢？按照什麼樣的「緣分」分類呢？官方的話來說聚類有哪些效能度量以及距離計算方法。

我們通常按照乙個標準來分析聚類之後的結果，簡單來說這個標準是「簇內相似度高，簇間相似度低」，下面我們用一堆「指數」，「係數」來數學化引號裡面的內容，權當填補那些好奇心強盛的孩紙們…

效能度量分類：

聚類效能度量的主要分為兩類，一類是將聚類結果與某個「參考模型」進行比較，成為「外部指標」；另一類是直接考察聚類結果而不用任何參考模型，成為「內部指標」。

外部指標

「外部指標」通常有jaccard係數(jaccard coefficient，簡稱jc)、fm係數(fowlkes and mallows index，簡稱fmi)、rand指數(rand index，簡稱ri)。

[1]. 周志華，機器學習，清華大學出版社，2016

聚類之效能度量詳解

聚類效能度量

聚類中的效能度量

常用聚類以及聚類的度量指標

聚類之效能度量詳解

聚類 效能度量

聚類中的效能度量

常用聚類以及聚類的度量指標

相關推薦

聚類效能度量