機器學習學習筆記 第二十章 聚類演算法 DBSCAN

2021-08-29 00:03:44 字數 1001 閱讀 6056

ϵ-鄰域的距離閾值是我們設定的半徑r

直接密度可達:若某點p在點q的 r 鄰域內,且q是核心點則p-q直接密度可達。

密度可達:若有乙個點的序列q0、q1、…qk,對任意qi~qi-1是直接密度可達的 ,則稱從q0到qk密度可達,這實際上是直接密度可達的「傳播」。

密度相連:若從某核心點p出發,點q和點k都是密度可達的 ,則稱點q和點k是密度相連的。

邊界點:屬於某乙個類的非核心點,不能發展下線了

雜訊點:不屬於任何乙個類簇的點,從任何乙個核心點出發都是密度不可達的

上圖中,點的分類分別是:

a——核心物件

b,c——邊界點:因為這兩個點不能再發展下線了

n——離群點:因為這個點所代表的這一片區域再也找不到其他點了,離群了

for(資料集d中每個物件p) do

if (p已經歸入某個簇或標記為雜訊) then

continue;

else

檢查物件p的eps鄰域 neps(p) ;

if (neps(p)包含的物件數小於minpts) then

標記物件p為邊界點或雜訊點;

else

標記物件p為核心點,並建立新簇c, 並將p鄰域內所有點加入c

for (neps(p)中所有尚未被處理的物件q) do

檢查其eps鄰域neps(q),若neps(q)包含至少minpts個物件,則將neps(q)中未歸入任何乙個簇的物件加入c;

end for

end if

end if

end for

來自:

不需要指定簇的個數,演算法會分配好的

可以發現任意形狀的簇,這是比k-means強大很多的地方

擅長找到離群點,演算法會檢測出來的

我們提供兩個引數就夠了,不用過度費腦

高維度的資料處理還是有些困難

引數難以選擇(引數對結果影響很大)

在sklearn中執行效率比較慢(可以採用資料削減策略)

學習筆記 《MySQL必知必會》 第二十章

在update語句中使用子查詢 ignore關鍵字 如果用update語句更新多行,並且在更新這些行中的一行或多行時出乙個現錯誤,則整個update操作被取消 錯誤發生前更新的所有行被恢復到它們原來的值 為即使是發生錯誤,也繼續進行更新,可使用ignore關鍵字,刪除資料 delete delete...

機器學習之 聚類學習筆記

聚類試圖將資料集中的樣本劃分為若干個通常是不相交的子集,每個子集 稱為乙個 簇 cluster 通過這樣的劃分,每個簇可能對應於一些潛在的概念 類別 如 淺色瓜 深色瓜 有籽瓜 無籽瓜 甚至 本地瓜 外地瓜 等。這些概念對聚類演算法而言事先是未知的,聚類過程 僅能自動形成簇結構,簇所對應的概念語義需...

第二十四周學習筆記

自監督關鍵點檢測和特徵描述子生成 自監督訓練方法 使用全卷積神經網路架構,乙個共享的encoder對進行編碼,兩個decoder分別檢測關鍵點和生成描述子 outperform lift in almost all metrics quantitatively scores strongly in ...