資料探勘傳統聚類演算法基礎知識筆記

聚類分析是資料探勘應用的技術之一，可以看作一種資料分析方法，也可以作為資料探勘技術的預處理。聚類演算法屬於無監督學習的範疇，不需要人為事先確定好聚類的類別，所以常常被用來對未知類別的資料（如電力日負荷曲線）進行劃分。聚類演算法通過一定的計算，把資料集劃分為不同的簇，旨在使同一簇內的資料相似性最高，簇與簇之間差距最大。

常見的聚類演算法可分為以下幾類：

(1) 劃分法：即通過不斷地迭代，使具有相似特徵的資料劃分為一類，具有不同特徵的資料劃分為另一類，直至滿足迭代終止條件，劃分結束。每個分組內都有物件，且每個物件只能在乙個分組內。

(2) 層次法：將資料集內的物件分解或合併，最終形成的結構具有層次結構的樹。其過程是將所有的資料放在乙個簇裡，通過某種策略將這個簇分成越來越小的分組，使同一分組內的資料離散度越來越小，直到分組滿足終止條件或稱為乙個單獨的簇。

(3) 基於密度的聚類：基於密度方法的聚類分析認為最終形成的聚類結果是由乙個聚集在一起的樣本點組成，這些資料物件分布緊湊，稱之為高密度區，處於這些簇間隙的資料物件分布相對零散，稱之為低密度區。演算法旨在將資料分布分散的區域與資料分布集中的區域分散開，從而找到聚類目標。

(4) 基於網格方法的聚類：將資料集分成若干個資料單元，以資料單元為最小單位進行聚類。此方法只需關心網格數，不需要關心資料集內物件本身。

(5) 基於模型的方法聚類：與數學模型結合，為每個聚類目標尋找乙個合適的數學模型，通過數學模型，將資料聚類。數學模型一般選擇基於概率密度分布的函式或者選擇體現相關性的函式。

資料在儲存時，會有各種不同的儲存形式，在聚類分析時需要通過某種方法來表示資料結構，以便於對資料進行處理。常見的表示方法就是矩陣，如:資料集內共有n個物件，每個物件具有m個數字屬性，則可用n×m的矩陣來表示。

聚類結果依賴於相似度的度量方式，常用的相似度度量有兩類：

(1) 使用距離公式度量

1)歐幾里得公式（歐式距離）

2)曼哈頓公式

3)馬氏距離

(2)使用相似性係數度量

1)夾角余弦

2)jacard係數

jacard係數通常用來表示集合與集合之間的相似性，公式如下，ti表示乙個集合。

簡單介紹了資料探勘中聚類分析的基本概念和常用聚類演算法的分類、演算法思想。

宣告：以上內容為在學習過程中的記錄，非原創。

資料探勘傳統聚類演算法基礎知識筆記

聚類演算法基礎知識（更新中）

聚類演算法資料探勘（五）聚類

資料探勘 K Means聚類演算法

資料探勘 傳統聚類演算法基礎知識筆記

聚類演算法基礎知識（更新中）

聚類演算法資料探勘（五） 聚類

資料探勘 K Means聚類演算法

相關推薦

資料探勘傳統聚類演算法基礎知識筆記

聚類演算法資料探勘（五）聚類