聚類 效能度量

2021-07-24 13:35:56 字數 384 閱讀 3829

聚類的效能是很難度量,因為它是從資料中學習,並歸類。資料的特性的多方面的,那麼歸類的結果也會是多種。比如蘋果,可以從顏色(紅、綠)也可以從形狀(圓的、橢圓的)歸類,沒有一定的形式。

但是我們還是試圖找到一些方法來評價聚類演算法的效能。主要分為外部指標和內部指標兩大類。外部指標是指,將結果與「參考的模型」(分好類)進行對比;內部指標是指,直接利用自身的聚類結果進行評價。

(1)jaccard係數

主要判斷隸屬於相同類的個數。該個數越多,說明聚類效果越好。

(1)perplexity值

perplexity值(困惑度)通常用於lda, hdp等模型上,主要計算特徵的概率。值越小越好。

(2)距離計算

類內的樣本距離越小越好,類間的距離越大越好。

聚類之效能度量詳解

聚類是什麼呢?我們都聽說過 物以類聚 即把 志同道合 的 資料分到一起歸為一類,不同類之間在 志向 上具有較大分歧。舉個栗子,茫茫人生中,我們普通大眾會被god根據緣分進行聚類,緣分好的話,會成為朋友,甚至成為了可以互訴衷腸,餘生請指教 的男女盤友,那緣分不好的應該是一生從未謀面或者一面之緣或者是如...

聚類中的效能度量

在無監督學習中,訓練樣本的標記是沒有指定的,通過對無標記樣本的訓練來探索資料之間的規律。其中應用最廣的便是聚類,聚類試圖把一群未標記資料劃分為一堆不相交的子集,每個子集叫做 簇 每個簇可能對應於乙個類別標籤,但值得注意的是,這個標籤僅僅是我們人為指定強加的,並不是資料本身就存在這樣的標籤。例如 軟體...

常用聚類以及聚類的度量指標

外部度量 利用條件熵定義的同質性度量 sklearn.metrics.homogeneity score 每乙個聚出的類僅包含乙個類別的程度度量。sklearn.metrics.completeness 每乙個類別被指向相同聚出的類的程度度量。sklearn.metrics.v measure sc...