08 聚類演算法 聚類演算法的衡量指標

2021-09-19 21:49:43 字數 1814 閱讀 4341

07 聚類演算法 - **案例三 - k-means演算法和mini batch k-means演算法效果評估

● 混淆矩陣

● 均一性

● 完整性

● v-measure

● 調整蘭德係數(ari)

● 調整互資訊(ami)

● 輪廓係數(silhouette)

1、均一性

__均一性:__乙個簇中只包含乙個類別的樣本,則滿足均一性;其實也可以認為就是正確率(每個聚簇中正確分類的樣本數占該聚簇總樣本數的比例和);

2、完整性

__完整性:__同類別樣本被歸類到相同簇中,則滿足完整性;每個聚簇中正確分類的樣本數佔型別的總樣本數比例的和。

__v-measure:__均一性和完整性的加權平均。

4、調整蘭德係數(ari)

__rand index(蘭德指數)(ri)__,ri取值範圍為[0,1],值越大意味著聚類結果與真實情況越吻合。

其中c表示實際類別資訊,k表示聚類結果,a表示在c與k中都是同類別的元素對數,b表示在c與k中都是不同類別的元素對數,c2

n samples 表示資料集中可以組成的對數。

__調整蘭德係數(ari,adjusted rnd index)__,ari取值範圍[-1,1],值越大,表示聚類結果和真實情況越吻合。從廣義的角度來將,ari是衡量兩個資料分布的吻合程度的。

5、調整互資訊(ami)

調整互資訊(ami,adjusted mutual information)類似ari,內部使用資訊熵。

6、輪廓係數

__簇內不相似度:__計算樣本i到同簇其它樣本的平均距離為ai;ai越小,表示樣本i越應該被聚類到該簇,簇c中的所有樣本的ai的均值被稱為簇c的簇不相似度。

__簇間不相似度:__計算樣本i到其它簇cj的所有樣本的平均距離bij,i=min;bi越大,表示樣本i越不屬於其它簇。

輪廓係數:si值越接近1表示樣本i聚類越合理,越接近-1,表示樣本i應該分類到另外的簇中,近似為0,表示樣本i應該在邊界上;所有樣本的si的均值被成為聚類結果的輪廓係數。

09 聚類演算法 - 層次聚類

聚類演算法衡量指標

簇內不相似度 計算樣本i到同簇其它樣本的平均距離為ai a i越小,表示樣本i越應 該被聚類到該簇,簇c中的所有樣本的a i的均值被稱為簇c的 簇不相似度 簇間不相似度 計算樣本i到其它簇c j的所有樣本的平均距離b ij,b i min b i越大,表示樣本i越不屬於其它簇。輪廓係數 si 值越接...

聚類演算法的衡量指標

乙個簇中只包含乙個類別的樣本,則滿足均一性 其實也可以認為就是正確率 每個聚簇中正確分類的樣本數占該聚簇總樣本數的比例和 同類別樣本被歸類到相同簇中,則滿足完整性 每個聚簇中正確分類的樣本數占該型別的總樣本數比例的和 均一性和完整性的加權平均 rand index 蘭德指數 ri ri取值範圍為 0...

聚類演算法之K means演算法與聚類演算法衡量指標

原文出處 聚類就是按照某個特定標準 如距離準則 把乙個資料集分割成不同的類或簇,使得同乙個簇內的資料物件的相似性盡可能大,同時不在同乙個簇中的資料物件的差異性也盡可能地大。即聚類後同一類的資料盡可能聚集到一起,不同資料盡量分離。聚類演算法屬於無監督學習,即事先不會給出標記資訊,通過對無標記樣本的學習...