機器學習密度聚類演算法 DBSCAN

1.密度聚類

基於密度的聚類演算法由於能夠發現任意形狀的聚類，識別資料集中的雜訊點，可伸縮性好等特點，在許多領域有著重要的應用。

密度演算法概念：

1）如果乙個資料點周圍足夠稠密，也就是以這個點為中心，給定半徑的鄰域內的資料點足夠多，密度大於密度閾值(使用者指定的引數minpts),則稱這個資料點為核心資料點，否則為邊界資料點。

2）研究資料點之間的關係，如果p是乙個核心資料點，q屬性p的yita鄰域，則稱q是從p直接密度可達的。

3）如果存在一條鏈,滿足p1=p,pi=q,pi直接密度可達pi+1,則稱p密度可達q。

4）如果存在r,r密度可達q和p,則稱p和q是密度相連的。

5）由於乙個核心資料點和其他密度可達的所有資料點構成乙個聚類。

dbscan演算法：

dbscan演算法思想：尋找資料集d的子集s,s包含於d,s是密度相連的閉集，s滿足s中任意兩點是密度相連的，並且s中任意點不能和s外的點是密度相連的。dbscan從任意一資料點p開始，根據引數yita和minpts,提取所有從p密度可達的資料點，得到乙個聚類。

dbscan演算法的步驟如下：

1）從任一資料點p開始，對p點資料yita和minpts進行判定。如果p是核心資料點，則建立新簇s,並將p鄰域內的所有點歸入s,否則將p點標記為邊界點或雜訊點。

2）對於s中除p點以外的點繼續實施過程1），繼續擴充s,直到所有的點都被判定處理。

dbscan演算法的優點：不易受雜訊影響，可以發現任意形狀的簇。dbscan演算法的缺點：受設定引數的影響，判定的標準比較固定，較稀的聚類會被劃分為多個類，或密度較大且離得較近的類會被合併成乙個聚類。

機器學習 密度聚類演算法 DBSCAN