k均值聚類 K means

分類作為一種監督學習方法，要求必須事先明確知道各個類別的資訊，並且斷言所有待分類項都有乙個類別與之對應。但是很多時候上述條件得不到滿足，尤其是在處理海量資料的時候，如果通過預處理使得資料滿足分類演算法的要求，則代價非常大，這時候可以考慮使用聚類演算法。

聚類屬於無監督學習，相比於分類，聚類不依賴預定義的類和類標號的訓練例項。

所謂聚類問題，就是給定乙個元素集合d，其中每個元素具有n個可觀察屬性，使用某種演算法將d劃分成k個子集，要求每個子集內部的元素之間相異度盡可能低，而不同子集的元素相異度盡可能高。其中每個子集叫做乙個簇。

與分類不同，分類是示例式學習，要求分類前明確各個類別，並斷言每個元素對映到乙個類別，而聚類是觀察式學習，在聚類前可以不知道類別甚至不給定類別數量，是無監督學習的一種。

k均值演算法的計算過程非常直觀：

1、從d中隨機取k個元素，作為k個簇的各自的中心。

2、分別計算剩下的元素到k個簇中心的相異度，將這些元素分別劃歸到相異度最低的簇。

3、根據聚類結果，重新計算k個簇各自的中心，計算方法是取簇中所有元素各自維度的算術平均數。

4、將d中全部元素按照新的中心重新聚類。

5、重複第3，4步，直到聚類結果不再變化。

6、將結果輸出。