聚類方法的總結

1 k-means事先確定聚類中心個數，初始任意選擇聚類中心，然後計算每個點到聚類中心距離，一般用歐式距離，通過這個也可以看出來這種方法比較適用於圓形或者球形分布的情況，距離哪個聚類中心最近就屬於那一類，然後計算各個類的中心點作為新的聚類中心，重複操作，需要說明的是，這種方法對初始聚類中心選擇敏感，初始聚類中心會影響最後迭代的結果。

2 sequential leader這種方法優點是可以處理流資料，不需要迭代和設定聚類個數，但是需要人工設定閾值，閾值對結果影響很大。先任意取乙個點作為一類，取第二個點計算距離，如果大於閾值，則它自己為一類，依次計算新的點與原來各個類的midpoimt的距離和閾值關係。

3 em可以聚非圓形或者球形分布的類，但是我感覺這種方法還是受到很大限制，你需要事先對這些點的概率分布做出假設，可以是高斯分布，卡方等等，假設的分布不同最後效果是不同的。最後的分布是很多個分布的mixture為了概率和為一，需要加上權重，權重和為1。先假設，比如說每個高斯分布的均值方差權重，然後計算每個點屬於這個高斯分布的概率，注意這個概率是在這個點可能屬於所有類的分布中屬於特定類的概率，然後可以計算聚類中心點，可以求權重，然後又可以求每個點概率這是一種迭代求法.對高維很難做精確處理，除非可以視覺化，而且概率分布假設對結果影響很大，必須事先確定類個數。

4 密度dbsan可以有效排除噪點，可以對任意連通形狀聚類。無需事先確定聚類個數。基於ceteral point 的畫圓連通的膨脹聚類。但是圓半徑和多少點在圓內需要自己設定。

5 層次聚類不需要事先設定類個數。bottom-up,計算距離矩陣，找出最小的合併，距離計算有最近和最遠距離，平均距離等，再計算距離矩陣，依次進行，最後會成為一類。

6 競爭神經網路聚類基於competitive 神經網路，權重任意初始化，輸入的是負距離。權重調整是基於wta原則，有bias，設定bias可以避免出現死神經元，經常更新權重的神經元的b會調小，不經常更新會調大。沒有死神經元意味著聚類個數小於等於輸出神經元個數，可能出現重複。

7模糊聚類計算相似矩陣，選定乙個截的λ不需要設k。根據λ不同結果不同。

8 som 會出現死神經元，聚類個數小於等於輸出神經元個數。不是簡單的wta,獲勝神經元周圍區域神經元都會按照距離遞減調整權重，調整區域逐漸減小。可以排除噪點干擾，收斂速度比6快。學習次數影響聚類結果。可以看出5678也是偏向於圓，球型分布

聚類方法的總結

聚類總結（中）密度聚類

聚類與常見聚類方法

聚類總結（上）劃分聚類

聚類方法的總結

聚類總結（中） 密度聚類

聚類與常見聚類方法

聚類總結（上） 劃分聚類

相關推薦

聚類總結（中）密度聚類

聚類總結（上）劃分聚類