資料探勘中的常用聚類演算法提綱

聚類相關的概念：相似性、距離度量（單連線、全連線、平均、質心、中心）、異常點

演算法分類：層次演算法、劃分演算法

層次演算法：（凝聚、**）、譜系圖的概念

簡單的凝聚演算法——最近鄰聚類：自增距離d至閥值、每次合併距離<=d的簇，複雜度0(max(d)*n^2*判連通的複雜度)

基於mst的層次凝聚聚類：從生成的mst上，根據距離合併簇

**：基於mst的**，與上述mst凝聚相逆

劃分演算法判定聚類解的優劣：平方誤差（點到簇中心點的距離平方和）

1、mst，去k-1條最不一致邊，0（n^2）

2、誤差平方聚類：隨機選k個點入簇，將每個點放入最近的簇，計算機平方誤差，產生新的中心點，直到兩次迭代產生的平方誤差的差小於某一閥值：（分k個簇，n個元組,t次迭代）o(ktn)

3、k均值演算法：選k個初始點入簇，計算平均值，然後重新將每個點放入到平均值距離最近的簇，重新計算平均值，直到均值不變或變化小於某一閥值 o(ktn)

4、最鄰近演算法：初始化某乙個點為單獨簇，依次計算每乙個點到每個簇中心點的距離，選出最近的簇，如果最近距離小於閥值，加入這個最近簇，否則，自己單獨成為另外乙個簇最壞時間複雜度 o(n^2)

5、pam演算法：選定中心點、利用最近距離將每個點入簇、計算交換中心點與任意個非中心點交換後的距離改變量，並交換距離改變量最小的一對中心點與非中心點，直到改變量非負。複雜度大

擴充套件到大型資料庫：clara，clarans,基於資料庫抽樣

6、遺傳演算法：了解

7、神經網路：了解，自組織的神經網路、自組織對映，kohonen網路、權值調整、競爭

感覺很多劃分演算法，都是利用不斷的迭代進行鬆弛...

以上不過是乙個提綱。

資料探勘中的聚類演算法綜述

1.聚合聚類的策略是先將每個物件各自作為乙個原子聚類，然後對這些原子聚類逐層進行聚合，直至滿足一定的終止條件後者則與前者相反，它先將所有的物件都看成乙個聚類，然後將其不斷分解直至滿足終止條件。2.分割聚類演算法是另外一種重要的聚類方法。它先將資料點集分為個劃分，然後從這個初始劃分開始，通過重複...

資料探勘常用聚類分類演算法總結

1 knn演算法 k最鄰近分類演算法 from sklearn.model selection import train test split sklearn中引入訓練集測試集分割包 data train,data test,target train,target test train test s...

聚類演算法資料探勘（五）聚類

首先宣告，我是乙個菜鳥。一下文章中湧現技術誤導情況蓋不負責聚類是資料探勘描述任務的乙個主要組成部分。資料探勘任務包括描述性任務和性任務兩種。描述性任務包括聚類關聯分析序列異常檢測等，性任務包括回歸和分類。聚類將資料物件分別為若干類，同一類的物件具有較高的相似度，不同類的物件相似度較低。從...

資料探勘中的常用聚類演算法 提綱

資料探勘中的聚類演算法綜述

資料探勘常用聚類 分類演算法總結

聚類演算法資料探勘（五） 聚類

相關推薦

資料探勘中的常用聚類演算法提綱

資料探勘常用聚類分類演算法總結

聚類演算法資料探勘（五）聚類