r型聚類典型指標 常用的聚類演算法及聚類演算法評價指標

2021-10-13 04:44:48 字數 1897 閱讀 4203

1. 典型聚類演算法

1.1 基於劃分的方法

代表:kmeans演算法

·指定k個聚類中心

·(計算資料點與初始聚類中心的距離)

·(對於資料點,找到最近的ci(聚類中心),將分配到ci中)

·(更新聚類中心點,是新類別數值的均值點)

·(計算每一類的偏差)

·返回返回第二步

1.2 基於層次的方法

代表:cure演算法

·每個樣本作為單獨的乙個類別

··合併,為

·遍歷完本次樣本,合併成新的類別後,若存在多個類別,則返回第二步

·遍歷完本次樣本,合併成新的類別後,若所有樣本為同一類別,跳出迴圈,輸出每層類別

1.3 基於網格的方法

代表:sting演算法

·將資料集合x劃分多層網格結構,從某一層開始計算

·查詢該層網格間的屬性值,計算屬性值與閾值的關係,判定網格間的相關情況,不相關的網格不作考慮

·返回相關網格結果

1.4 基於密度的方法

代表:dbscan演算法

·輸入資料集合x,隨機選取一點,並找出這個點的所有高密度可達點

·遍歷此點的所有鄰域內的點,並尋找這些密度可達點,判定某點鄰域內的點,並尋找這些點密度可達點,判定某點的鄰域內的點數是否超過閾值點數,超過則構成核心點

·掃瞄資料集,尋找沒有被聚類的資料點,重複第二步

·輸出劃分的類,並輸出異常值點(不和其他密度相連)

1.5 神經網路的方法

代表:som演算法

·資料集合,權重向量為,,歸一化處理

·尋找獲勝的神經元,找到最小距離,對於每乙個輸入資料,找到與之最相匹配的節點

令為為的距離,更新權重:

·更新臨近節點,,其中代表學習率

1.6 基於圖的聚類方法

代表:譜聚類演算法

·計算鄰接矩陣,度矩陣,

·計算拉普拉及矩陣

·計算歸一化拉普拉斯矩陣

·計算的特徵值和特徵向量

·對q矩陣進行聚類,得到聚類結果

2. 聚類演算法的評價指標

乙個好的聚類方法可以產生高品質簇,是的簇內相似度高,簇間相似度低。一般來說,評估聚類質量有兩個標準,內部質量評價指標和外部評價指標。

2.1 內部質量評價標準

內部評價指標是利用資料集的屬性特徵來評價聚類演算法的優劣。通過計算總體的相似度,簇間平均相似度或簇內平均相似度來評價聚類質量。評價聚類效果的高低通常使用聚類的有效性指標,所以目前的檢驗聚類的有效性指標主要是通過簇間距離和簇內距離來衡量。這類指標常用的有ch(calinski-harabasz)指標等

ch指標

ch指標定義為:

其中表示類間距離差矩陣的跡,表示類內離差矩陣的跡,是整個資料集的均值,是第個簇的均值,代表聚類個數,代表當前的類。值越大,聚類效果越好,主要計算簇間距離與簇內距離的比值

簇的凝聚度

簇內點對的平均距離反映了簇的凝聚度,一般使用組內誤差平方(sse)表示:

簇的鄰近度

簇的鄰近度用組間平方和(ssb)表示,即簇的質心到簇內所有資料點的總平均值的距離的平方和

2.2 外部質量評價標準

外部質量評價指標是基於已知分類標籤資料集進行評價的,這樣可以將原有標籤資料與聚類輸出結果進行對比。外部質量評價指標的理想聚類結果是:具有不同類標籤的資料聚合到不同的簇中,具有相同類標籤的資料聚合相同的簇中。外部質量評價準則通常使用熵,純度等指標進行度量。

熵:簇內包含單個類物件的一種度量。對於每乙個簇,首先計算資料的類分布,即對於簇,計算簇的成員屬於類的概率

其中表示簇中所有物件的個數,而是簇中類的物件個數。使用類分布,用標準公式:

計算每個簇的熵,其中k是類個數。簇集合的總熵用每個簇的熵的加權和計算即:

其中是簇的個數,而是簇內資料點的總和

純度:簇內包含單個類物件的另外一種度量。簇的純度為,而聚類總純度為:

常用聚類以及聚類的度量指標

外部度量 利用條件熵定義的同質性度量 sklearn.metrics.homogeneity score 每乙個聚出的類僅包含乙個類別的程度度量。sklearn.metrics.completeness 每乙個類別被指向相同聚出的類的程度度量。sklearn.metrics.v measure sc...

08 聚類演算法 聚類演算法的衡量指標

07 聚類演算法 案例三 k means演算法和mini batch k means演算法效果評估 混淆矩陣 均一性 完整性 v measure 調整蘭德係數 ari 調整互資訊 ami 輪廓係數 silhouette 1 均一性 均一性 乙個簇中只包含乙個類別的樣本,則滿足均一性 其實也可以認為就...

常用聚類演算法

演算法步驟 這個演算法需要事先知道資料有幾類。假設我們的資料一共有k類。然後從資料樣本點中任取k個點。作為每乙個類的中心點。然後計算每乙個樣本點到每乙個中心點的距離。對於每乙個樣本點,找到與他距離最近的中心點。然後把他歸於這個中心點所在的類。最後計算每乙個類別的均值。把這個均值作為新的中心點。遞迴前...