聚類演算法優缺點總結

2021-10-07 16:40:35 字數 2087 閱讀 9980

聚類演算法優缺點總結

k均值演算法

二分k-均值演算法

min單鏈凝聚層次聚類

max全鏈凝聚層次聚類

組平均凝聚層次聚類

ward方法

質心方法

lance-williams公式

dbscan密度聚類

資料具有大小很不同的簇

高維資料

具有離群點的資料

具有高度不規則區域的資料

具有球形簇的資料

具有很不相同的密度的資料

具有少量雜訊點的資料

非歐幾里得資料

歐幾里得資料

具有許多屬性和混合屬性的資料

目標函式:最小化每個點到最近質心的距離的平方,即最小化sse。

優點:(1)原理比較簡單,實現也是很容易,收斂速度快。

(2)區域性最優。

(3)演算法的可解釋度比較強。

(4)主要需要調參的引數僅僅是簇數k。

(5)對處理大資料集,該演算法保持可伸縮性和高效性

(6)當簇接近高斯分布時,它的效果較好

缺點:(1)處理空簇,如果所有點在指派步驟都未分配到某個簇,就會得到空簇

(2)對雜訊和異常點比較敏感

(3)k值不好把握

(4)對於不是凸的資料集比較難收斂

(5)如果各隱含類別的資料不平衡,比如各隱含類別的資料量嚴重失衡,或者各隱含類別的方差不同,則聚類效果不佳

(6)採用迭代方法,得到的結果只是區域性最優

(7)初始聚類中心的選擇

適用的資料型別:

適用於各種資料型別,比較符合隨機分布的歐幾里得資料,但是不能處理非球形簇,不同尺寸和不同密度的簇

目標函式:從二分試驗中選擇具有最小總sse的兩個簇

優點:與k均值相同,而且更有效(初始點的選擇)

缺點:與k均值相同

適用的資料型別:與k均值相同

目標函式:通過選擇較大的資料點作為質心使總sse最小

優點:與k均值相同,而且更有效(初試質心的選擇)

缺點:與k均值相同

適用的資料型別:與k均值相同

目標函式:不同兩個聚類中離得最近的兩個點之間的距離

優點:(1) 不需要指定k值

(2) 產生高質量的聚類

缺點:(1) 對於計算量和儲存需求而言,此演算法是昂貴的

(2) 所有的合併都是最終的,對於雜訊,高維資料,可能造成問題

(3) 缺乏全域性目標函式

(4) 不能很好的處理不同大小簇的能力

適用的資料型別:單鏈技術擅長於處理非橢圓形狀的簇,但對雜訊和離群點很敏感,適用於基本應用需要層次結構,建立一種分類方法,不適用於高維資料,適用於具有少量雜訊並且具有歐幾里得資料

目標函式:不同兩個聚類中離得最遠的兩個點之間的距離

優點:與凝聚層次聚類相同

缺點:與凝聚層次聚類相同

適用的資料型別:與凝聚層次聚類相同

目標函式:不同兩個聚類中所有點對距離的平均值

優點:與凝聚層次聚類相同

缺點:與凝聚層次聚類相同

適用的資料型別:與凝聚層次聚類相同

目標函式:最小化兩個簇合併時導致的平方誤差的增量

優點:與凝聚層次聚類相同

缺點:與凝聚層次聚類相同

適用的資料型別:與凝聚層次聚類相同

目標函式:計算簇質心之間的距離來計算兩個簇之間的鄰近度

優點:(1) 與凝聚層次聚類相同

(2) 倒置的可能性

缺點:與凝聚層次聚類相同

適用的資料型別:與凝聚層次聚類相同

目標函式: 給定eps和minpts來聚類

優點:(1) 相對抗雜訊的

(2) 能夠處理任意形狀和大小的簇,這也是比k均值好的地方

(3) 聚類結果沒有偏倚,而k-means聚類演算法對初始值要求很高

缺點:(1) 不能處理密度變化太大以及聚類間距相差很大的簇,不然效果比較差

(2) 不能處理高維資料

(3) 如果樣本集較大時,聚類收斂時間較長

(4) 需要進行調參,eps和minpts的引數確定

(5) 演算法聚類效果依賴距離公式的選取

適用的資料型別:不能高維,簇密度不能變化太大,聚類間距也不能太大,樣本集合適。

聚類演算法優缺點分析

演算法定義 優點缺點 kmeans 簡單 高效 快速收斂 當簇接近高斯分布式,聚類效果好 必須定義平均值,k事先給定,k的值影響聚類效果,對異常值影響大 dbscan 可以對任意形狀進行聚類,對異常值不敏感 對簇密度相差較大,不均勻的話,聚類效果不好,樣本大,收斂時間長 凝聚式層次聚類 速度快,對異...

KNN演算法,K聚類的優缺點

適用資料範圍 數值型和標稱型 目標變數的結果只在有限目標集中取值,如真與假,標稱型目標變數主要用於分類 優點 簡單,易於理解,易於實現,無需引數估計,無需訓練 對異常值不敏感 個別噪音資料對結果的影響不是很大 適合對稀有事件進行分類 適合於多分類問題 multi modal,物件具有多個類別標籤 k...

k means聚類,密度聚類,層次聚類優缺點

k means 優點 1,簡單,易於理解和實現 2,時間複雜度低 缺點 1,需要對均值給出定義,2,需要指定要聚類的數目 3,一些過大的異常值會帶來很大影響 4,演算法對初始選值敏感 5,適合球形聚類 層次聚類 優點 1,距離和規則的相似度容易定義,限制少 2,不需要預先制定聚類數 3,可以發現類的...