資料探勘中的常用聚類演算法 提綱

2021-06-21 12:42:50 字數 830 閱讀 6867

聚類相關的概念:相似性、距離度量(單連線、全連線、平均、質心、中心)、異常點

演算法分類:層次演算法、劃分演算法

層次演算法:(凝聚、**)、譜系圖的概念

簡單的凝聚演算法——最近鄰聚類:自增距離d至閥值、每次合併距離<=d的簇,複雜度0(max(d)*n^2*判連通的複雜度)

基於mst的層次凝聚聚類:從生成的mst上,根據距離合併簇

**:基於mst的**,與上述mst凝聚相逆

劃分演算法判定聚類解的優劣:平方誤差(點到簇中心點的距離平方和)

1、mst,去k-1條最不一致邊,0(n^2)

2、誤差平方聚類:隨機選k個點入簇,將每個點放入最近的簇,計算機平方誤差,產生新的中心點,直到兩次迭代產生的平方誤差的差小於某一閥值:(分k個簇,n個元組,t次迭代)o(ktn)

3、k均值演算法:選k個初始點入簇,計算平均值,然後重新將每個點放入到平均值距離最近的簇,重新計算平均值,直到均值不變或變化小於某一閥值 o(ktn)

4、最鄰近演算法:初始化某乙個點為單獨簇,依次計算每乙個點到每個簇中心點的距離,選出最近的簇,如果最近距離小於閥值,加入這個最近簇,否則,自己單獨成為另外乙個簇 最壞時間複雜度 o(n^2)

5、pam演算法:選定中心點、利用最近距離將每個點入簇、計算交換中心點與任意個非中心點交換後的距離改變量,並交換距離改變量最小的一對中心點與非中心點,直到改變量非負。複雜度大

擴充套件到大型資料庫:clara,clarans,基於資料庫抽樣

6、遺傳演算法:了解

7、神經網路:了解,自組織的神經網路、自組織對映,kohonen網路、權值調整、競爭

感覺很多劃分演算法,都是利用不斷的迭代進行鬆弛...

以上不過是乙個提綱。

資料探勘中的聚類演算法綜述

1.聚合聚類的策略是先將每個物件各自作為乙個原子聚類,然後對這些原子聚類逐層進行聚合,直至滿足一定的終止條件 後者則與前者相反,它先將所有的物件都看成乙個聚類,然後將其不斷分解直至滿足終止條件。2.分割聚類演算法是另外一種重要的聚類方法。它先將資料點集分為 個劃分,然後從這 個初始劃分開始,通過重複...

資料探勘常用聚類 分類演算法總結

1 knn演算法 k最鄰近分類演算法 from sklearn.model selection import train test split sklearn中引入訓練集測試集分割包 data train,data test,target train,target test train test s...

聚類演算法資料探勘(五) 聚類

首先宣告,我是乙個菜鳥。一下文章中湧現技術誤導情況蓋不負責 聚類是資料探勘描述任務的乙個主要組成部分。資料探勘任務包括描述性任務和 性任務兩種。描述性任務包括聚類 關聯分析 序列 異常檢測等,性任務包括回歸和分類。聚類 將資料物件分別為若干類,同一類的物件具有較高的相似度,不同類的物件相似度較低。從...