機器學習(三) 聚類演算法詳解

2021-06-18 19:20:08 字數 1634 閱讀 7359

聚類分析是對無標註的資料無監督的進行劃分的方法。按照聚類分析實用的方法劃分,可以分為劃分方法、層次方法、密度方法和網格方法。

具體的聚類分析方法和他們對應的方法分為:

劃分方法:k-means, k-medoids, clara, clarans, fcm, em

層次方法:birch

劃分方法:cure, rock, chemaloen.

密度方法:dbscan, gdb scan, denclue, db clasd.

網格方法:sting, clique。首先將空間劃分為有限個但願構成的網路,隨後利用網格結構進行聚類。

模型方法:classit, cobweb。

神經網路:smol, lvq

劃分的方法

k-means演算法

canopy 演算法

canopy演算法是更強的聚類演算法。它可以保證各個聚類的中心點之間的距離大於一定的閥值。

canopy引入了兩個距離變數t1和t2,其中t1>t2。首先選取中心點,將距離為t1之內的點劃分到這個中心點所在的類中,並且同時將t2距離之內的點刪除,對這些點後續不做聚類處理的。後面依次生成繼續聚類的方法進行聚類。

k-mediods演算法

優點:

k-mediods方法比k-means演算法更加健壯,因為中心點不像平均值那麼容易受到極端值的影響。

缺點:執行代價高,可擴充套件性不強。

pam演算法:

從乙個初始聚類的集合開始,迴圈利用non-mediods替換mediods,並看看能否提高各個簇的效能。

clara演算法:

基於抽樣的pam

clarans演算法:

基於隨機樣本

em 演算法

聚類演算法中期望最大值演算法,在統計中用於尋找,依賴不可觀察的隱性變數的概率模型,引數最大估計。

在統計計算之中,最大期望實在概率模型之中尋找引數最大的使然估計或者說最大的後驗估計的演算法,其中概率模型依賴於無法貫徹的隱藏變數。最大期望常用於在機器學習和計算機視覺中的聚類。em演算法經過兩個交替的步驟進行計算:第一步,計算期望值(e),利用對音場變涼的現有估計值,計算器最大的似然估計值;第二部是最大化(m),最大化在e步上求得最大的似然引數來計算引數的值。m步上找到的引數估計值被用於下乙個e步的計算中,這個過程不停地交替迭代。

層次方法

密度方法

db-scan

dbscan演算法是乙個比較有代表性的基於密度的聚類演算法。與劃分和層次聚類不同,它將簇定義為密度相連的點的最大集合,能夠把足夠高階毒的區域劃分為簇,並可在雜訊的空間資料庫中發現任意形狀的聚類。

它需要兩個很重要的引數:掃瞄半徑(eps)和最小包含點數(minpos)。

步驟:1)任選乙個未被訪問的點,找出與其距離在一定範圍(eps)內的點。

2)如果附近的點的數量》minpos,則將當前點與附近點形成乙個簇。並標記出發點為已被訪問,然後遞迴以相同的方法處理該簇內的所有未被標記為已訪問的點,從而對簇進行擴充套件。

3) 如果附近的點數

4) 如果簇未被充分擴充套件,即簇內的說有點被標記為已訪問,然後用同樣的演算法處理未被訪問的點。

網格方法

affinity propagation演算法:

神經網路:smol, lvq

常用聚類演算法對比 

聚類演算法介紹:

em演算法簡介:

機器學習 三 聚類演算法原理

一文詳解,分類和回歸樹演算法背後原理。碼字不易,喜歡請點贊,謝謝!機器學習包括有監督和無監督兩種,而無監督中主要是聚類和降維演算法。對於聚類演算法來說,最常用的是k means演算法和層次聚類方法,本文對這兩種演算法進行簡答的介紹。一 聚類演算法的思想 聚類演算法是將n個點聚到k個簇裡面,聚類之後,...

機器學習 聚類 密度聚類演算法

一,介紹 密度聚類演算法有多種,我們這裡主要介紹一種著名的密度聚類演算法 dbscan。首先,我們通過下圖了解幾個概念 1 鄰域,與中心x距離不超過 距離,如上圖紅色虛線圈 2 核心物件,確定聚類的初始點,如上圖的x1 3 密度直達,在聚類核心物件鄰域內的點,如上圖x2由x1密度直達 4 密度可達,...

機器學習 聚類演算法

k means演算法 聚類概念 無監督問題 我們手裡沒有標籤了 難點 如何評估,如何調參 聚類 相似的東西分到一組 k means演算法 基本概念 要得到簇的個數,需要指定k值 距離的度量 常用歐幾里得距離和余弦相似度 先標準化 優化目標 質心 均值,即向量各維取平均即可 k means演算法 工作...