聚類效能度量

聚類的效能是很難度量，因為它是從資料中學習，並歸類。資料的特性的多方面的，那麼歸類的結果也會是多種。比如蘋果，可以從顏色（紅、綠）也可以從形狀（圓的、橢圓的）歸類，沒有一定的形式。

但是我們還是試圖找到一些方法來評價聚類演算法的效能。主要分為外部指標和內部指標兩大類。外部指標是指，將結果與「參考的模型」（分好類）進行對比；內部指標是指，直接利用自身的聚類結果進行評價。

（1）jaccard係數

主要判斷隸屬於相同類的個數。該個數越多，說明聚類效果越好。

（1）perplexity值

perplexity值（困惑度）通常用於lda, hdp等模型上，主要計算特徵的概率。值越小越好。

（2）距離計算

類內的樣本距離越小越好，類間的距離越大越好。

聚類之效能度量詳解

聚類是什麼呢？我們都聽說過物以類聚即把志同道合的資料分到一起歸為一類，不同類之間在志向上具有較大分歧。舉個栗子，茫茫人生中，我們普通大眾會被god根據緣分進行聚類，緣分好的話，會成為朋友，甚至成為了可以互訴衷腸，餘生請指教的男女盤友，那緣分不好的應該是一生從未謀面或者一面之緣或者是如...

聚類中的效能度量

在無監督學習中，訓練樣本的標記是沒有指定的，通過對無標記樣本的訓練來探索資料之間的規律。其中應用最廣的便是聚類，聚類試圖把一群未標記資料劃分為一堆不相交的子集，每個子集叫做簇每個簇可能對應於乙個類別標籤，但值得注意的是，這個標籤僅僅是我們人為指定強加的，並不是資料本身就存在這樣的標籤。例如軟體...

常用聚類以及聚類的度量指標

外部度量利用條件熵定義的同質性度量 sklearn.metrics.homogeneity score 每乙個聚出的類僅包含乙個類別的程度度量。sklearn.metrics.completeness 每乙個類別被指向相同聚出的類的程度度量。sklearn.metrics.v measure sc...

聚類 效能度量

聚類之效能度量詳解

聚類中的效能度量

常用聚類以及聚類的度量指標

相關推薦

聚類效能度量