聚類的評價指標

2021-09-08 20:38:01 字數 2478 閱讀 1843

我們知道,監督學習的評價指標是準確率、召回率、f1、

fβf_1、f_\beta

f1​、fβ

​、roc-auc等等,但聚類方法在大多數情況下資料是沒有標籤的,這些情況下聚類就不能使用以上的評價指標了。

聚類有自己的評價指標,大多數聚類的評價指標是通過緊湊性和可分性來定義的。緊湊性基本上是衡量乙個聚類中的元素彼此之間的距離,而可分性表示不同聚類之間的距離,總的來說聚類的評價指標有以下三個型別:

1、外部指標:這是處理有標籤資料時使用的評分,可以說監督學習的評價指標都是外部指標。

2、內部指標:使用資料來衡量資料和結構之間的吻合度。

3、相對指標:通過對比,表明兩個聚類結構中哪乙個在某種意義上更好。

adjusted rand index是外部指標的一種,其得分區間是[−1

,1][-1,1]

[−1,1]

。在計算adjusted rand index前,我們要先計算一下rand index。

1、rand index(蘭德係數)

rand index是adjusted rand index的前身,rand index因為懲罰力度不夠,導致聚類得分普遍很高,因此才有adjusted rand index。

r i=

a+b(

n2)ri = \frac n\\ 2\\ \end }

ri=(n2

​)a+

b​a:表示在真實標籤上在同乙個分類,聚類後也在同乙個分類的對數。

b:表示在真實標籤上不在同乙個分類,聚類後也不在同乙個分類的對數。

( n2

)\begin n\\ 2\\ \end

(n2​

):表示所有資料的對數,在排列組合中的表示方式是cn2

c^2_n

cn2​

。例如:

假設有資料(a,b,c,d,e),在真實標籤中(a,b)為一類,(c,d,e)為另一類,而聚類後(a,b,c)為一類,(d,e)為另一類,那麼

a =c

22+c

22=2

a = c^2_2 + c^2_2 = 2

a=c22​

+c22

​=2b=c

21∗c

21=4

b = c^1_2 * c^1_2 = 4

b=c21​

∗c21

​=4(n2

)=c5

2=10\begin n\\ 2\\ \end = c^2_5 = 10

(n2​)=

c52​

=10ri=

2+410

=0.6

ri = \frac = 0.6

ri=102

+4​=0.6

2、adjusted rand index的計算

a ri

=ri−

expe

cted

inde

xmax

(ri)

−exp

ecte

dind

exari = \frac

ari=ma

x(ri

)−ex

pect

edin

dexr

i−ex

pect

edin

dex​

ari的原始公式是這樣子的:

計算資料點的輪廓係數

s i=

bi−a

imax

(ai,

bi)s_i = \frac

si​=ma

x(ai

​,bi

​)bi

​−ai

​​a是同乙個聚類中到其它樣本的平均距離;

b是與它距離最近的不同的聚類的樣本的平均距離。

聚類的輪廓係數

s =∑

i=1n

sins = \frac_s_i}

s=n∑i=

1n​s

i​​

輪廓係數的缺點:

1、輪廓係數不適合評價緊湊的環形的資料聚類;

2、當模型是dbscan時,不適合使用輪廓係數作為評價指標。

聚類評價指標學習

一般分為 外部 內部 相對,這三種評價指標。正確聚類的樣本數佔總樣本的比例 非常直觀且簡單的計算法方法。即歸一化互資訊,計算公式如下 互資訊指的是兩個隨機變數之間的關聯程度,標準互資訊是將互資訊歸一化0 1。值越高越好。ri是蘭德指數,ari範圍是 1,1 值越大意味著聚類結果與真實情況越吻合。從廣...

聚類結果的評價指標

看到了兩篇部落格,感興趣的可以看一下 首先看乙個例子 ps 別人的 認為x代表一類文件,o代表一類文件,方框代表一類文件,聚成了3個cluster,現在要對聚類的結果進行評價 一 purity 純度 purity 正確聚類的文件數占總文件的比例 例如上面的例子,purity 5 4 3 17 0.7...

ARI聚類效果評價指標

聚類效果有乙個評價指標,ari adjusted rand index 這個指標不考慮你使用的聚類方法,把你的方法當做乙個黑箱,只注重結果。可以說,是乙個十分 功利 的指標。1.rand index 在講ari之前呢,先講述一下ri,也就是rand index,從兩者的名字也可以看出來,這是ari的...