聚類分析 K Means演算法

2021-06-29 02:23:58 字數 528 閱讀 3441

k-means演算法

這是基於劃分的聚類演算法,該演算法效率較高,對大規模資料進行聚類時被廣泛使用。

基本思路:把資料集劃分成k

個簇,每個簇內部的樣本非常相似,不同簇之間的差異非常大。

k-means演算法是乙個迭代演算法,先隨機選擇

k個物件,每個物件代表了起中心,對於剩下的物件,將其賦給最近的簇,然後重新計算簇的中心。不斷重複,直到準則函式收斂。

演算法:1  資料預處理

l 連續屬性:標準化,如  

l 離散屬性:進行二進位制編碼。引入調節因子,平抑離散屬性的影響比連續屬性的大的差別。

2  確定初始質心(有的是隨機選擇)

① 選擇第乙個作為第乙個質心

② 其他樣本與第乙個質心歐幾里得距離最遠的為第二個

③ 不斷重複上面兩步,確定k

個質心。

3 指派樣本

計算每個樣本點與這k

個的距離,將其歸類到其中。

4 更新質點

5 停止準則

最大迭代次數

差異容忍度

k means聚類分析

k means演算法是machine learning領域內比較常用的演算法之一。首先從n個資料物件任意選擇 k 個物件作為初始聚類中心 而對於所剩下其它物件,則根據它們與這些聚類中心的相似度 距離 分別將它們分配給與其最相似的 聚類中心所代表的 聚類 然 後再計算每個所獲新聚類的聚類中心 該聚類中...

K means聚類分析

主成分分析 pca pca n components 0.9 data pca.fit transform cross 降維x data 500 x.shape 對類別預設為4 km kmeans n clusters 4 km.fit x predict km.predict x 顯示聚類結果 p...

聚類分析之 Kmeans演算法(一)

聚類分析是一種靜態資料分析方法,常被用於資料探勘 機器學習 模式識別等領域,聚類是一種無監督式的學習方法。它是在未知樣本類別的情況下,通過計算樣本彼此間的距離 歐式距離,馬式距離,漢明距離,余弦距離等 來估計樣本所屬類別。從結構性來劃分,聚類方法分為自上而下和自下而上兩種方法。聚類的演算法有很多種,...