K means演算法及其優化

聚類演算法是一種典型的無監督學習演算法，主要用於將相似的樣本自動歸到乙個類別中。聚類演算法與分類演算法最大的區別是：聚類演算法是無監督的學習演算法，而分類演算法屬於監督的學習演算法。

在聚類演算法中根據樣本之間的相似性，將樣本劃分到不同的類別中，對於不同的相似度計算方法，會得到不同的聚類結果，常用的相似度計算方法有歐式距離法。

基本k-means

演算法的思想很簡單，事先確定常數

k，常數

k意味著最終的聚類類別數，首先隨機選定初始點為質心，並通過計算每乙個樣本與質心之間的相似度(這裡為歐式距離)，將樣本點歸到最相似的類中，接著，重新計算每個類的質心(即為類中心)，重複這樣的過程，直到質心不再改變，最終就確定了每個樣本所屬的類別以及每個類的質心。由於每次都要計算所有的樣本與每乙個質心之間的相似度，故在大規模的資料集上，

k-means

演算法的收斂速度比較慢。

輸出最終的質心以及每個類

優點：易於實現

缺點：可能收斂於區域性最小值，在大規模資料收斂慢

k均值演算法非常簡單且使用廣泛，但是其有主要的兩個缺陷：

2.k-means演算法對初始選取的聚類中心點是敏感的，不同的隨機種子點得到的聚類結果完全不同

3.k均值演算法並不適合所有的資料型別。它不能處理非球形簇、不同尺寸和不同密度的簇。

4.對離群點的資料進行聚類時，k均值也有問題，這種情況下，離群點檢測和刪除有很大的幫助。

由於傳統的k-means演算法的聚類結果易受到初始聚類中心點選擇的影響，因此在傳統的k-means演算法的基礎上進行演算法改進，對初始中心點選取比較嚴格，各中心點的距離較遠，這就避免了初始聚類中心會選到乙個類上，一定程度上克服了演算法陷入區域性最優狀態。

為了克服k-means演算法收斂於區域性最小值的問題，提出了一種二分k-均值(bisecting k-means)

二分k-means(bisecting kmeans)演算法的主要思想是：首先將所有點作為乙個簇，然後將該簇一分為二。之後選擇能最大限度降低聚類代價函式（也就是誤差平方和）的簇劃分為兩個簇。以此進行下去，直到簇的數目等於使用者給定的數目k為止。以上隱含的乙個原則就是：因為聚類的誤差平方和能夠衡量聚類效能，該值越小表示資料點越接近於他們的質心，聚類效果就越好。所以我們就需要對誤差平方和最大的簇進行再一次劃分，因為誤差平方和越大，表示該簇聚類效果越不好，越有可能是多個簇被當成了乙個簇，所以我們首先需要對這個簇進行劃分。

比如要分成5個組，第一次**產生2個組，然後從這2個組中選乙個目標函式產生的誤差比較大的，**這個組產生2個，這樣加上開始那1個就有3個組了，然後再從這3個組裡選乙個**，產生4個組，重複此過程，產生5個組。這算是一中基本求精的思想。二分k均值不太受初始化的困擾，因為它執行了多次二分試驗並選取具有最小誤差的試驗結果，還因為每步只有兩個質心。

K means演算法及其優化

k means演算法優化

Kmeans演算法及其示例

kmeans演算法及其實現

K means演算法及其優化

k means演算法優化

Kmeans演算法及其示例

kmeans演算法及其實現

相關推薦