聚類演算法概述

聚類是乙個把資料物件集劃分成多個組或者簇的過程，使得簇內的物件具有很高的相似性，但與其他簇中的物件很不相似．聚類是無監督學習，不依賴於預定義的類和類標號的訓練例項。我們常見的聚類演算法分為以下幾類：劃分方法、層次方法、基於密度的方法和基於網格的方法。

給定n個物件的集合，劃分方法構建資料的k個劃分，每個劃分表示乙個簇，k<=n。也就是說，劃分方法將資料分為k個組，每個組至少包含乙個物件。

大部分的劃分方法是基於距離的，但是這只能發現球狀簇。。它採用一種迭代的重定位技術，通過將物件從乙個組移動到另乙個組來改進劃分結果。乙個好的劃分方法的一般準則是：同乙個簇內的物件盡可能相互接近或相關，而不同簇的物件盡可能遠離或者不同。

常見的基於劃分的演算法有：k-均值演算法和k-中心點演算法。

層次方法建立給定資料物件集的層次分解。分為凝聚的方法和**的方法兩種。凝聚的方法，也稱自底向上的方法，開始將每個物件看作單獨的一組，然後逐次向上合併相近的物件或者分組，直到所有的組合並為乙個大組，或者滿足終止條件。**的方法，也成為自頂向下的方法，開始將所有物件看作乙個簇，然後在每次迭代中乙個簇被劃分為更小的簇，直到每個物件在乙個單獨的簇，或者滿足終止條件。

層次聚類方法是可以基於距離或者基於密度和連通性的。但是缺陷在於，一旦乙個步驟（合併或者**）完成，它就不能再被撤銷。

基於密度的聚類方法主要思想是：只要「鄰域」中的密度（物件或者資料點的數目）超過某個閥值，就繼續增長給定的簇。也就是說，對於沒頂的簇中的每個資料點，在給定半徑的鄰域中必須至少包含最少數目的點。這可以用來過濾雜訊或者立群點，發現形狀任意的簇。

基於網格的方法把物件空間量化為有限個單元，形成乙個網格結構。所有聚類都在這個網格結構（量化的空間）上進行，它僅僅依賴於量化空間中的每一維的單元數。因此可以和其他聚類方法進行整合。

注：以上讀自《資料探勘概念與技術》一書

聚類演算法概述

聚類系列概述

譜聚類概述

聚類演算法近鄰聚類演算法

聚類演算法概述

聚類系列 概述

譜聚類概述

聚類演算法 近鄰聚類演算法

相關推薦

聚類系列概述

聚類演算法近鄰聚類演算法