聚類演算法 DBScan演算法

對演算法的用例是在spark平台對學生上網記錄處理的乙個例項，參考位址見github上的dbscan演算法運用例項

先考慮乙個問題，對下左圖中的資料集合怎麼聚類？對右圖的無規則的資料集合又該如何聚類？

鄰域半徑(radius)：以當前物件為核心確定密度區域範圍時引用的長度，二維平面中就指以當前物件為圓心確定圓時引用所用的半徑。如下圖中的eps即為領域半徑。

密度域值(minpts)：以當前物件為核心，以鄰域半徑為長度，所確定的範圍內滿足指定要求的最少元素的個數。

核心物件：若乙個物件其鄰域半徑radius內物件元素個數大於等於minpts，則稱該物件為核心物件。

直接密度可達：若乙個核心物件p，其鄰域半徑內若干個點，則這若干個點都有從物件p是直接密度可達的。

密度可達：物件鏈p(1),p(2),***,p(n)，若p(i+1)是從p(i)直接密度可達，則p(n)是從p(1)密度可達(注意：密度可達不是等價關係，因為它不一定是對稱的)。

密度相連：存在物件o屬於區域d，使得物件s和物件r都從o是密度可達的，則s與r密度相連（注意：密度相連具有等價關係，eg.o1和o2密度相連，o2和o3密度相連，則o1和o3也是密度相連的）。

dbscan是具有雜訊應用的基於密度的空間聚類演算法，可以根據使用者指定的引數radius(的鄰域半徑)和minpts(密度域值)，對資料集合進行自動聚類。其最大的特點就是演算法本身可以自己決定聚類的數量而不像k-means演算法需要人工指定聚類的數目，可以發現任意形狀的類簇，同時可以過濾雜訊點和低密度區域。

輸入：初始資料集合、鄰域半徑(radius)和密度域值(minpts)

建立聚類集合：分別以每個物件為考察物件判斷其是否為核心物件，如果是核心物件則建立聚類集合

合併集合：根據密度相連的原則合併聚類集合

（1）如何判斷各物件是否為核心物件

判斷是否為核心物件時，首先以當前物件為基準，依次計算它與資料集合中其他點的距離，如果距離小於給定的radius(即distance(p,q)

（2）如何度量物件之間的距離

（3）怎麼合併聚類集合

通過上面的步驟可以將初始的資料集合處理成各個核心物件的聚類集合，依次遍歷上面得以的聚類集合（如圖所示），如果聚類集合cluster中的第i個list集合中的元素在第j個list集合出現過（即兩個集合存在密度相連的元素），說明兩個集合可以合併成乙個大集合。如圖過程所示

優點：(1)演算法本身可以自己決定聚類數量

(2)可以發現任意形狀的類簇

(3)可以過濾低密度的區域，同時可以過濾雜訊點

缺點：(1)與使用者輸入的鄰域半徑及密度域值密切相關，可能由於使用者對資料特點不了解而輸入不合適的引數得出不準確的結論

(2)演算法過濾雜訊點同時也是其缺點，造成了其不適用於某些領域（比如網路安全領域中惡意攻擊的判斷）

聚類演算法 DBScan演算法

聚類演算法 DBSCAN

DBSCAN聚類演算法

DBSCAN 聚類演算法

聚類演算法 DBScan演算法

聚類演算法 DBSCAN

DBSCAN聚類演算法

DBSCAN 聚類演算法

相關推薦