模糊C均值聚類原理

fcm演算法是一種基於劃分的聚類演算法，它的思想就是使得被劃分到同一簇的物件之間相似度最大，而不同簇之間的相似度最小。模糊c均值演算法是普通c均值演算法的改進，普通c均值演算法對於資料的劃分是硬性的，而fcm則是一種柔性的模糊劃分。硬聚類把每個待識別的物件嚴格的劃分某類中，具有非此即彼的性質，而模糊聚類建立了樣本對類別的不確定描述，更能客觀的反應客觀世界，從而成為聚類分析的主流。

要學習模糊c均值聚類演算法要先了解慮屬度的含義，隸屬度函式是表示乙個物件x隸屬於集合a的程度的函式，通常記做μa(x)，其自變數範圍是所有可能屬於集合a的物件（即集合a所在空間中的所有點），取值範圍是[0,1]，即0<=μa(x)<=1。μa(x)=1表示x完全隸屬於集合a，相當於傳統集合概念上的x∈a。乙個定義在空間x=上的隸屬度函式就定義了乙個模糊集合a，或者叫定義在論域x=上的模糊子集。對於有限個物件x1，x2，……，xn模糊集合可以表示為：

a=有了模糊集合的概念，乙個元素隸屬於模糊集合就不是硬性的了，在聚類的問題中，可以把聚類生成的簇看成模糊集合，因此，每個樣本點隸屬於簇的隸屬度就是[0，1]區間裡面的值。

fcm演算法需要兩個引數乙個是聚類數目c，另乙個是引數m。一般來講c要遠遠小於聚類樣本的總個數，同時要保證c>1。對於m，它是乙個控制演算法的柔性的引數，如果m過大，則聚類效果會很次，而如果m過小則演算法會接近hcm聚類演算法。

演算法的輸出是c個聚類中心點向量和c*n的乙個模糊劃分矩陣，這個矩陣表示的是每個樣本點屬於每個類的隸屬度。根據這個劃分矩陣按照模糊集合中的最大隸屬原則就能夠確定每個樣本點歸為哪個類。聚類中心表示的是每個類的平均特徵，可以認為是這個類的代表點。

fcm把n個向量xi（i=1,2,…,n）分為c個模糊組，並求每組的聚類中心，使得非相似性指標的價值函式達到最小。fcm與hcm的主要區別在於fcm用模糊劃分，使得每個給定資料點用值在0，1間的隸屬度來確定其屬於各個組的程度。與引入模糊劃分相適應，隸屬矩陣u允許有取值在0，1間的元素。不過，加上歸一化規定，乙個資料集的隸屬度的和總等於1：

那麼，fcm的價值函式（或目標函式）：

這裡uij介於0，1間；ci為模糊組i的聚類中心，dij=||ci-xj||為第i個聚類中心與第j個資料點間的歐幾里德距離；且m>=1是乙個加權指數。

中心ci的計算

隸屬度的計算

步驟1：用值在0，1間的隨機數初始化隸屬矩陣u，使其滿足約束條件

步驟2：計算c個聚類中心ci，i=1,…,c。

步驟3：計算價值函式。如果它小於某個確定的閥值，或它相對上次價值函式值的改變量小於某個閥值，則演算法停止。

步驟4：計算新的u矩陣。返回步驟2。

模糊C均值聚類原理

模糊C均值聚類

模糊c均值聚類

模糊c均值聚類演算法

相關推薦