機器學習學習筆記第二十章聚類演算法 DBSCAN

ϵ-鄰域的距離閾值是我們設定的半徑r

直接密度可達：若某點p在點q的 r 鄰域內，且q是核心點則p-q直接密度可達。

密度可達：若有乙個點的序列q0、q1、…qk，對任意qi~qi-1是直接密度可達的，則稱從q0到qk密度可達，這實際上是直接密度可達的「傳播」。

密度相連：若從某核心點p出發，點q和點k都是密度可達的 ,則稱點q和點k是密度相連的。

邊界點:屬於某乙個類的非核心點,不能發展下線了

雜訊點：不屬於任何乙個類簇的點，從任何乙個核心點出發都是密度不可達的

上圖中，點的分類分別是：

a——核心物件

b，c——邊界點：因為這兩個點不能再發展下線了

n——離群點：因為這個點所代表的這一片區域再也找不到其他點了，離群了

for（資料集d中每個物件p） do
if （p已經歸入某個簇或標記為雜訊） then
continue;
else
檢查物件p的eps鄰域 neps(p) ；
if (neps(p)包含的物件數小於minpts) then
標記物件p為邊界點或雜訊點；
else
標記物件p為核心點，並建立新簇c, 並將p鄰域內所有點加入c
for (neps(p)中所有尚未被處理的物件q) do
檢查其eps鄰域neps(q)，若neps(q)包含至少minpts個物件，則將neps(q)中未歸入任何乙個簇的物件加入c；
end for
end if
end if
end for
來自：

不需要指定簇的個數，演算法會分配好的

可以發現任意形狀的簇，這是比k-means強大很多的地方

擅長找到離群點，演算法會檢測出來的

我們提供兩個引數就夠了，不用過度費腦

高維度的資料處理還是有些困難

引數難以選擇（引數對結果影響很大）

在sklearn中執行效率比較慢（可以採用資料削減策略）

學習筆記《MySQL必知必會》第二十章

在update語句中使用子查詢 ignore關鍵字如果用update語句更新多行，並且在更新這些行中的一行或多行時出乙個現錯誤，則整個update操作被取消錯誤發生前更新的所有行被恢復到它們原來的值為即使是發生錯誤，也繼續進行更新，可使用ignore關鍵字，刪除資料 delete delete...

機器學習之聚類學習筆記

聚類試圖將資料集中的樣本劃分為若干個通常是不相交的子集，每個子集稱為乙個簇 cluster 通過這樣的劃分，每個簇可能對應於一些潛在的概念類別如淺色瓜深色瓜有籽瓜無籽瓜甚至本地瓜外地瓜等。這些概念對聚類演算法而言事先是未知的，聚類過程僅能自動形成簇結構，簇所對應的概念語義需...

第二十四周學習筆記

自監督關鍵點檢測和特徵描述子生成自監督訓練方法使用全卷積神經網路架構，乙個共享的encoder對進行編碼，兩個decoder分別檢測關鍵點和生成描述子 outperform lift in almost all metrics quantitatively scores strongly in ...

機器學習學習筆記 第二十章 聚類演算法 DBSCAN

學習筆記 《MySQL必知必會》 第二十章

機器學習之 聚類學習筆記

第二十四周學習筆記

相關推薦

機器學習學習筆記第二十章聚類演算法 DBSCAN

學習筆記《MySQL必知必會》第二十章

機器學習之聚類學習筆記