08 聚類演算法聚類演算法的衡量指標

07 聚類演算法 - **案例三 - k-means演算法和mini batch k-means演算法效果評估

● 混淆矩陣

● 均一性

● 完整性

● v-measure

● 調整蘭德係數(ari)

● 調整互資訊(ami)

● 輪廓係數(silhouette)

1、均一性

__均一性：__乙個簇中只包含乙個類別的樣本，則滿足均一性；其實也可以認為就是正確率(每個聚簇中正確分類的樣本數占該聚簇總樣本數的比例和);

2、完整性

__完整性：__同類別樣本被歸類到相同簇中，則滿足完整性；每個聚簇中正確分類的樣本數佔型別的總樣本數比例的和。

__v-measure：__均一性和完整性的加權平均。

4、調整蘭德係數(ari)

__rand index(蘭德指數)(ri)__，ri取值範圍為[0,1]，值越大意味著聚類結果與真實情況越吻合。

其中c表示實際類別資訊，k表示聚類結果，a表示在c與k中都是同類別的元素對數，b表示在c與k中都是不同類別的元素對數，c2

n samples 表示資料集中可以組成的對數。

__調整蘭德係數(ari，adjusted rnd index)__，ari取值範圍[-1,1]，值越大，表示聚類結果和真實情況越吻合。從廣義的角度來將，ari是衡量兩個資料分布的吻合程度的。

5、調整互資訊(ami)

調整互資訊(ami，adjusted mutual information)類似ari，內部使用資訊熵。

6、輪廓係數

__簇內不相似度：__計算樣本i到同簇其它樣本的平均距離為ai;ai越小，表示樣本i越應該被聚類到該簇，簇c中的所有樣本的ai的均值被稱為簇c的簇不相似度。

__簇間不相似度：__計算樣本i到其它簇cj的所有樣本的平均距離bij，i=min；bi越大，表示樣本i越不屬於其它簇。

輪廓係數：si值越接近1表示樣本i聚類越合理，越接近-1，表示樣本i應該分類到另外的簇中，近似為0，表示樣本i應該在邊界上；所有樣本的si的均值被成為聚類結果的輪廓係數。

09 聚類演算法 - 層次聚類

聚類演算法衡量指標

簇內不相似度計算樣本i到同簇其它樣本的平均距離為ai a i越小，表示樣本i越應該被聚類到該簇，簇c中的所有樣本的a i的均值被稱為簇c的簇不相似度簇間不相似度計算樣本i到其它簇c j的所有樣本的平均距離b ij，b i min b i越大，表示樣本i越不屬於其它簇。輪廓係數 si 值越接...

聚類演算法的衡量指標

乙個簇中只包含乙個類別的樣本，則滿足均一性其實也可以認為就是正確率每個聚簇中正確分類的樣本數占該聚簇總樣本數的比例和同類別樣本被歸類到相同簇中，則滿足完整性每個聚簇中正確分類的樣本數占該型別的總樣本數比例的和均一性和完整性的加權平均 rand index 蘭德指數 ri ri取值範圍為 0...

聚類演算法之K means演算法與聚類演算法衡量指標

原文出處聚類就是按照某個特定標準如距離準則把乙個資料集分割成不同的類或簇，使得同乙個簇內的資料物件的相似性盡可能大，同時不在同乙個簇中的資料物件的差異性也盡可能地大。即聚類後同一類的資料盡可能聚集到一起，不同資料盡量分離。聚類演算法屬於無監督學習，即事先不會給出標記資訊，通過對無標記樣本的學習...

08 聚類演算法 聚類演算法的衡量指標

聚類演算法衡量指標

聚類演算法的衡量指標

聚類演算法之K means演算法與聚類演算法衡量指標

相關推薦

08 聚類演算法聚類演算法的衡量指標