k means 聚類方法，轉 4 15

k-means 聚類

聚類演算法有很多種，k-means 是聚類演算法中的最常用的一種，演算法最大的特點是簡單，好理解，運算速度快，但是只能應用於連續型的資料，並且一定要在聚類前需要手工指定要分成幾類。

k-means 聚類演算法的大致意思就是「物以類聚，人以群分」：

首先輸入 k 的值，即我們指定希望通過聚類得到 k 個分組；

從資料集中隨機選取 k 個資料點作為初始大佬（質心）；

對集合中每乙個小弟，計算與每乙個大佬的距離，離哪個大佬距離近，就跟定哪個大佬。

這時每乙個大佬手下都聚集了一票小弟，這時候召開選舉大會，每一群選出新的大佬（即通過演算法選出新的質心）。

如果新大佬和老大佬之間的距離小於某乙個設定的閾值（表示重新計算的質心的位置變化不大，趨於穩定，或者說收斂），可以認為我們進行的聚類已經達到期望的結果，演算法終止。

如果新大佬和老大佬距離變化很大，需要迭代3~5步驟。

說了這麼多，估計還是有點糊塗，下面舉個非常形象簡單的例子：

有6個點，從圖上看應該可以分成兩堆，前三個點一堆，後三個點另一堆。現在我手工地把 k-means 計算過程演示一下，同時檢驗是不是和預期一致：

1.設定 k 值為2

2.選擇初始大佬（就選 p1 和 p2）

3.計算小弟與大佬的距離：

從上圖可以看出，所有的小弟都離 p2 更近，所以次站隊的結果是：

a 組：p1

b 組：p2、p3、p4、p5、p6

4.召開選舉大會：

a 組沒什麼可選的，大佬就是自己

b 組有5個人，需要重新選大佬，這裡要注意選大佬的方法是每個人 x 座標的平均值和 y 座標的平均值組成的新的點，為新大佬，也就是說這個大佬是「虛擬的」。因此，b 組選出新大哥的座標為：p 哥（（1+3+8+9+10）/5，（2+1+8+10+7）/5）=（6.2，5.6）。

綜合兩組，新大哥為 p1（0，0），p哥（6.2，5.6），而p2-p6重新成為小弟。

5.再次計算小弟到大佬的距離：

這時可以看到p2、p3離p1更近，p4、p5、p6離p哥更近，所以第二次站隊的結果是：

a 組：p1、p2、p3

b 組：p4、p5、p6（虛擬大哥這時候消失）

6.第二屆選舉大會：

同樣的方法選出新的虛擬大佬：p哥1（1.33，1），p哥2（9，8.33），p1-p6都成為小弟。

7.第三次計算小弟到大佬的距離：

這時可以看到 p1、p2、p3 離 p哥1 更近，p4、p5、p6離 p哥2 更近，所以第二次站隊的結果是：

a 組：p1、p2、p3

b 組：p4、p5、p6

我們可以發現，這次站隊的結果和上次沒有任何變化了，說明已經收斂，聚類結束，聚類結果和我們最開始設想的結果完全一致。

K Means聚類演算法

k means聚類演算法 intergret kmeans演算法的基本思想是初始隨機給定k個簇中心，按照最鄰近原則把待分類樣本點分到各個簇。然後按平均法重新計算各個簇的質心，從而確定新的簇心。一直迭代，直到簇心的移動距離小於某個給定的值。k means聚類演算法主要分為三個步驟 1 第一步是為待聚類...

聚類演算法 K means

演算法接受引數 k 然後將事先輸入的n個資料物件劃分為 k個聚類以便使得所獲得的聚類滿足同一聚類中的物件相似度較高而不同聚類中的物件相似度較小。聚類相似度是利用各聚類中物件的均值所獲得乙個中心物件引力中心來進行計算的。k means演算法是最為經典的基於劃分的聚類方法，是十大經典資料探勘演...

模糊kmeans聚類

首先介紹乙個，fuzzykmeans演算法的主要思想模糊均值聚類 fcm 即眾所周知的模糊isodata，是用隸屬度確定每個資料點屬於某個聚類的程度的一種聚類演算法。1973年，bezdek提出了該演算法，作為早期硬均值聚類 hcm 方法的一種改進。fcm把 n 個向量 xi i 1,2,n 分為...

k means 聚類方法，轉 4 15

K Means聚類演算法

聚類演算法 K means

模糊kmeans聚類

相關推薦