k means聚類演算法C 實現

clustering 中文翻譯作「聚類」，簡單地說就是把相似的東西分到一組，同 classification （分類）不同，對於乙個 classifier ，通常需要你告訴它「這個東西被分為某某類」這樣一些例子，理想情況下，乙個 classifier 會從它得到的訓練集中進行「學習」，從而具備對未知資料進行分類的能力，這種提供訓練資料的過程通常叫做 supervised learning （監督學習）。而在聚類的時候，我們並不關心某一類是什麼，我們需要實現的目標只是把相似的東西聚到一起，因此，乙個聚類演算法通常只需要知道如何計算相似度就可以開始工作了，因此 clustering 通常並不需要使用訓練資料進行學習，這在 machine learning 中被稱作 unsupervised learning （無監督學習）。

在資料探勘中， k-means聚類演算法是一種 cluster analysis （聚類分析）的演算法，是一種非常簡單地基於距離的聚類演算法，認為每個cluster（類）由相似的點組成而這種相似性由距離來衡量，不同cluster間的點應該盡量不相似，每個cluster都會有乙個「重心」；另外它也是一種排他的演算法，即任意點必然屬於某一cluster且只屬於該cluster。

這個演算法實現過程很簡單，如下圖所示：

上圖中，a, b, c, d, e 是五個在圖中點。而灰色的點是種子點，也就是用來找cluster的「重心」。有兩個種子點，所以k=2。

k-means演算法步驟：

典型的演算法如下，它是一種迭代的演算法：

（1）根據事先給定的k值建立初始劃分，得到k個cluster，比如，可以隨機選擇k個點作為k個cluster的重心；

（2）計算每個點到各個cluster重心的距離，將它加入到最近的那個cluster；

（3）重新計算每個cluster的重心；

（4）重複過程2~3，直到各個cluster重心在某個精度範圍內不變化或者達到最大迭代次數。

別看演算法簡單，很多複雜演算法的實際效果或許都不如它，而且它的區域性性較好，容易並行化，對大規模資料集很有意義；演算法時間複雜度是：o(nkt)，其中：n 是聚類點個數，k 是cluster個數，t 是迭代次數。

k-means演算法主要有兩個最重大的缺陷，都和初始值有關：

k-means演算法c++實現：k-means.rar

github**：

****於網路，稍作修改，並做了簡單測試。

k means聚類演算法C 實現

kmeans聚類 c 實現

Matlab實現k means聚類演算法

MATLAB實現Kmeans聚類演算法

k means聚類演算法C 實現

kmeans聚類 c 實現

Matlab實現k means聚類演算法

MATLAB實現Kmeans聚類演算法

相關推薦