聚類方法分類

2021-08-19 11:31:34 字數 893 閱讀 5120

1.原型聚類:典型的做法是k-means,首先設定k個類別,隨機的在總體樣本中選擇k個樣本作為聚類中心,然後遍歷所有樣本點,把所有樣本點分類到k個類中(以最短距離為標準),然後更新k個樣本的樣本中心,再重新劃分所有的樣本點。停止條件可以設定為樣本的變化幅度不大的情況,或者兩次的損失函式變化不大的情況。

2.層次聚類:就是對所有資料點中最為相似的樣本點進行組合,然後更新樣本中心(就是用乙個樣本中心代替這兩個樣本點),然後反覆迭代,直到所有的樣本點都結合之後,結束。

優點:層次聚類最主要的優點是集群不再需要假設為類球形。另外其也可以擴充套件到大資料集。

缺點:有點像 k 均值聚類,該演算法需要設定集群的數量(即在演算法完成後需要保留的層次)。

3密度聚類:典型如dbscan,需要設定半徑eps,和指定數目minpts,所有的樣本點以半徑eps畫圓,然後所有樣本點被覆蓋的圓的數目多於指定數目minpts時,被認為是核心點,在半徑eps內點的數量少於minpts,但是落在核心點的領域內,被認為是邊界點,既不是核心點也不是邊界點,那就是噪點。區分出所有的點之後,刪除噪點,然後把所有連通的核心點連線成簇。優點:優點:dbscan 不需要假設集群為球狀,並且它的效能是可擴充套件的。此外,它不需要每個點都被分配到乙個集群中,這降低了集群的異常資料。

缺點:使用者必須要調整【eps】和【minpts】這兩個定義了集群密度的超引數。dbscan 對這些超引數非常敏感。

4.網路聚類:將d維資料空間的每一維平均分成等長的區間段,就是把資料劃分成一些網格單元,如果乙個網格單元所包含的樣本數量大於某個閾值,則定義為高密度區,否則定義為低密度區。如果乙個低密度區的周圍都是低密度區,那這點區域被認定為是噪點,然後連線相鄰的高密度單元。優點是能夠處理大規模資料,可伸縮性好,演算法結果不受輸入順序影響,結果簡單方便理解。缺點是:引數不好設定,對噪點不好處理,效果不一定好。當d較大時,數量過大,計算量過於龐大。

分類與聚類

1.分類是指有監督的學習,即要分類的樣本是有標記的,類別是已知的,事先定義好類別 類別數不變 2.按照某種標準給物件貼標籤 label 再根據標籤來區分歸類。3.分類的目的 是學會乙個分類函式或分類模型 也常常稱作分類器 該模型能把資料庫中的資料項對映到給定類別中的某乙個類中。4.分類器需要由人工標...

聚類 分類演算法 聚類演算法和分類演算法總結

k means 是一種典型的劃分聚類演算法,它用乙個聚類的中心來代表乙個簇,即在迭代過程中選擇的聚點不一定是聚類中的乙個點,該演算法只能處理數值型資料 k modes k means演算法的擴充套件,採用簡單匹配方法來度量分型別資料的相似度 k prototypes 結合了k means和k mod...

knn聚類還是分類 聊聊聚類演算法

學模式識別的時候覺得聚類是個很簡單很基礎的東西,但到了實習工作以及保研面試的時候又發現其實聚類沒那麼簡單,這裡從淺入深,結合個人專案以及其他寫的不錯的部落格來聊聊聚類演算法,有寫的不對的地方歡迎指出 用於資料探勘的聚類演算法有哪些,各有何優勢?www.zhihu.com 09 聚類演算法 層次聚類 ...