常用聚類以及聚類的度量指標

2021-09-25 21:17:13 字數 1067 閱讀 3093

外部度量:

利用條件熵定義的同質性度量:

sklearn.metrics.homogeneity_score:每乙個聚出的類僅包含乙個類別的程度度量。

sklearn.metrics.completeness:每乙個類別被指向相同聚出的類的程度度量。

sklearn.metrics.v_measure_score:上面兩者的一種折衷:

v = 2 * (homogeneity * completeness) / (homogeneity + completeness)

可以作為聚類結果的一種度量。

sklearn.metrics.adjusted_rand_score:調整的蘭德係數。

ari取值範圍為[-1,1],從廣義的角度來講,ari衡量的是兩個資料分布的吻合程度

sklearn.metrics.adjusted_mutual_info_score:調整的互資訊。

利用基於互資訊的方法來衡量聚類效果需要實際類別資訊,mi與nmi取值範圍為[0,1],ami取值範圍為[-1,1]。

在真實的分群label不知道的情況下(內部度量):

calinski-harabaz index:

在scikit-learn中, calinski-harabasz index對應的方法是metrics.calinski_harabaz_score.

ch指標通過計算類中各點與類中心的距離平方和來度量類內的緊密度,通過計算各類中心點與資料集中心點距離平方和來度量資料集的分離度,ch指標由分離度與緊密度的比值得到。從而,ch越大代表著類自身越緊密,類與類之間越分散,即更優的聚類結果。

sklearn.metrics.silhouette_score:輪廓係數

silhouette_sample

對於乙個樣本點(b - a)/max(a, b)

a平均類內距離,b樣本點到與其最近的非此類的距離。

silihouette_score返回的是所有樣本的該值,取值範圍為[-1,1]。

這些度量均是越大越好

sklearn kmeans,聚類演算法kmeans:

流程偽**:建立k個點作為起始質心(通常是隨機)

聚類 效能度量

聚類的效能是很難度量,因為它是從資料中學習,並歸類。資料的特性的多方面的,那麼歸類的結果也會是多種。比如蘋果,可以從顏色 紅 綠 也可以從形狀 圓的 橢圓的 歸類,沒有一定的形式。但是我們還是試圖找到一些方法來評價聚類演算法的效能。主要分為外部指標和內部指標兩大類。外部指標是指,將結果與 參考的模型...

r型聚類典型指標 常用的聚類演算法及聚類演算法評價指標

1.典型聚類演算法 1.1 基於劃分的方法 代表 kmeans演算法 指定k個聚類中心 計算資料點與初始聚類中心的距離 對於資料點,找到最近的ci 聚類中心 將分配到ci中 更新聚類中心點,是新類別數值的均值點 計算每一類的偏差 返回返回第二步 1.2 基於層次的方法 代表 cure演算法 每個樣本...

聚類中的效能度量

在無監督學習中,訓練樣本的標記是沒有指定的,通過對無標記樣本的訓練來探索資料之間的規律。其中應用最廣的便是聚類,聚類試圖把一群未標記資料劃分為一堆不相交的子集,每個子集叫做 簇 每個簇可能對應於乙個類別標籤,但值得注意的是,這個標籤僅僅是我們人為指定強加的,並不是資料本身就存在這樣的標籤。例如 軟體...