聚類方法分類

1.原型聚類：典型的做法是k-means，首先設定k個類別，隨機的在總體樣本中選擇k個樣本作為聚類中心，然後遍歷所有樣本點，把所有樣本點分類到k個類中（以最短距離為標準），然後更新k個樣本的樣本中心，再重新劃分所有的樣本點。停止條件可以設定為樣本的變化幅度不大的情況，或者兩次的損失函式變化不大的情況。

2.層次聚類：就是對所有資料點中最為相似的樣本點進行組合，然後更新樣本中心（就是用乙個樣本中心代替這兩個樣本點），然後反覆迭代，直到所有的樣本點都結合之後，結束。

優點：層次聚類最主要的優點是集群不再需要假設為類球形。另外其也可以擴充套件到大資料集。

缺點：有點像 k 均值聚類，該演算法需要設定集群的數量（即在演算法完成後需要保留的層次）。

3密度聚類：典型如dbscan，需要設定半徑eps，和指定數目minpts，所有的樣本點以半徑eps畫圓，然後所有樣本點被覆蓋的圓的數目多於指定數目minpts時，被認為是核心點，在半徑eps內點的數量少於minpts，但是落在核心點的領域內，被認為是邊界點，既不是核心點也不是邊界點，那就是噪點。區分出所有的點之後，刪除噪點，然後把所有連通的核心點連線成簇。優點：優點：dbscan 不需要假設集群為球狀，並且它的效能是可擴充套件的。此外，它不需要每個點都被分配到乙個集群中，這降低了集群的異常資料。

缺點：使用者必須要調整【eps】和【minpts】這兩個定義了集群密度的超引數。dbscan 對這些超引數非常敏感。

4.網路聚類：將d維資料空間的每一維平均分成等長的區間段，就是把資料劃分成一些網格單元，如果乙個網格單元所包含的樣本數量大於某個閾值，則定義為高密度區，否則定義為低密度區。如果乙個低密度區的周圍都是低密度區，那這點區域被認定為是噪點，然後連線相鄰的高密度單元。優點是能夠處理大規模資料，可伸縮性好，演算法結果不受輸入順序影響，結果簡單方便理解。缺點是：引數不好設定，對噪點不好處理，效果不一定好。當d較大時，數量過大，計算量過於龐大。

聚類方法分類

分類與聚類

聚類分類演算法聚類演算法和分類演算法總結

knn聚類還是分類聊聊聚類演算法

聚類方法分類

分類與聚類

聚類 分類演算法 聚類演算法和分類演算法總結

knn聚類還是分類 聊聊聚類演算法

相關推薦

聚類分類演算法聚類演算法和分類演算法總結

knn聚類還是分類聊聊聚類演算法