聚類之效能度量詳解

2021-08-15 12:09:22 字數 1712 閱讀 5408

聚類是什麼呢?我們都聽說過「物以類聚」,即把「志同道合」的 資料分到一起歸為一類,不同類之間在」志向「上具有較大分歧。舉個栗子,茫茫人生中,我們普通大眾會被god根據緣分進行聚類,緣分好的話,會成為朋友,甚至成為了可以互訴衷腸,」餘生請指教「的男女盤友,那緣分不好的應該是一生從未謀面或者一面之緣或者是如《再見前任3》中那樣成為了最熟悉的陌生人…好像扯遠了。

言歸正傳,用標準的普通話來說,聚類是將資料集中的樣本劃分為若干個通常是不相交的子集,每個子集成為乙個「」,用正規的外星人語言來說,對於樣本d=

d =包含

m m

個無標記樣本,每個樣本xi

=' role="presentation">xi=

xi=是乙個

n n

維特徵向量,則聚類演算法將樣本集

d' role="presentation">d

d劃分為

k k

個不相交的簇

' role="presentation">

,其中cl′

∩l′≠

lcl=

∅ cl′

∩l′≠

lcl=

∅且d=

∪kl=

1cl d=∪

l=1k

cl,相應地,用λj

∈ λj∈

表示樣本xj

x

j的「簇標記」,即xj

∈cλj

x j∈

cλj。於是聚類的結果可用包含m個元素的簇標記,記向量λ=

(λ1;

λ2;.

..;λ

m)λ =(

λ1;λ

2;..

.;λm

)。舉個栗子,對於具有

10 10

個樣本的資料集

d d

,其中每個樣本xi

' role="presentation">xix

i含有2 2

維特徵,分成

2' role="presentation">2

2類的結果如下:

聚類通常用來對無標記訓練樣本的學習來揭示資料內在性質及規律,為進一步的資料分析提供基礎,是「無監督學習」中應用最廣的研究方法。那麼問題來了,如何衡量聚類結果的好壞呢?按照什麼樣的「緣分」分類呢?官方的話來說聚類有哪些效能度量以及距離計算方法。

我們通常按照乙個標準來分析聚類之後的結果,簡單來說這個標準是「簇內相似度高,簇間相似度低」,下面我們用一堆「指數」,「係數」來數學化引號裡面的內容,權當填補那些好奇心強盛的孩紙們…

效能度量分類:

聚類效能度量的主要分為兩類,一類是將聚類結果與某個「參考模型」進行比較,成為「外部指標」;另一類是直接考察聚類結果而不用任何參考模型,成為「內部指標」。

外部指標

「外部指標」通常有jaccard係數(jaccard coefficient,簡稱jc)、fm係數(fowlkes and mallows index,簡稱fmi)、rand指數(rand index,簡稱ri)。

[1]. 周志華,機器學習,清華大學出版社,2016

聚類 效能度量

聚類的效能是很難度量,因為它是從資料中學習,並歸類。資料的特性的多方面的,那麼歸類的結果也會是多種。比如蘋果,可以從顏色 紅 綠 也可以從形狀 圓的 橢圓的 歸類,沒有一定的形式。但是我們還是試圖找到一些方法來評價聚類演算法的效能。主要分為外部指標和內部指標兩大類。外部指標是指,將結果與 參考的模型...

聚類中的效能度量

在無監督學習中,訓練樣本的標記是沒有指定的,通過對無標記樣本的訓練來探索資料之間的規律。其中應用最廣的便是聚類,聚類試圖把一群未標記資料劃分為一堆不相交的子集,每個子集叫做 簇 每個簇可能對應於乙個類別標籤,但值得注意的是,這個標籤僅僅是我們人為指定強加的,並不是資料本身就存在這樣的標籤。例如 軟體...

常用聚類以及聚類的度量指標

外部度量 利用條件熵定義的同質性度量 sklearn.metrics.homogeneity score 每乙個聚出的類僅包含乙個類別的程度度量。sklearn.metrics.completeness 每乙個類別被指向相同聚出的類的程度度量。sklearn.metrics.v measure sc...