聚類演算法綜述

資料分析對於各種現象的理解起著不可或缺的作用。聚類分析，是有很少的或沒有先驗知識的原始探索，包括跨多種社群的開發研究。多樣性，一方面給了我們許多任務具，另一方面，太多的選項也給了我們很多迷惑。我們的調查統計中出現資料集的聚類演算法、計算機、機器學習，並說明其應用在一些基準資料集，旅行推銷員問題，生物資訊學，乙個新的領域吸引了大量的人為之努力。幾個與之緊密相關的主題，距離測量和群集驗證也進行了討論。

我們生活在乙個充滿資料的世界。每天，人們遇到大量的資訊並將其儲存或或將其表示為資料，以供進一步分析和管理。在處理這些資料的重要手段之一是分類或組一組類別或集群。事實上，作為一種最原始的人類活動，分類在漫長的人類歷史發展的分類發揮著重要而不可或缺的作用。為了學習乙個新的物件或理解乙個新的現象，人們總是試圖尋找可以描述它的特徵，並基於相似或相異，廣義距離，根據一定的標準或者規則進一步比較它與其他已知物件或現象。

基本上，分類系統要麼是監督或非監督，取決於他們新的輸入分配給乙個有限的離散監督類或非監督分類數。

監督分類中，從輸入資料向量集的對映到乙個有限的精確的分類標籤集合可以用數學函式y=y(x,w)來表示，w是乙個可調節的向量。這些引數的值由歸納學習演算法決定，它的目標是在乙個有限的輸入輸出資料集上最小化經驗風險泛函。從誘導達到收斂或終止時，誘導分類器生成。

非監督分類中，被稱為群集或探索性資料分析，沒有可用的標記資料。聚類是單獨的乙個有限的目標，標記為有限的資料集和離散集。隱藏資料結構，而不是提供從相同的概率分布生成的觀測樣本的準確表徵。這可以使聚類的任務落在無監督的框架以外**學習問題，如向量量化，概率密度函式估計和熵極大。值得注意的是，聚類不同於多維標度(感性地圖)，其目標是描述所有評價物件的方式，地形失真最小，同時使用盡可能少的尺寸。還要注意，在實踐中，許多(**)向量量化器也使用(非**)聚類分析。

不**的聚類在本質上是乙個主觀的過程，絕對判斷排除所有聚類技術的相對效力。在聚類分析一組物件被分成上或多或少均勻子群的數量通常主觀選擇的相似性度量的基礎。這樣在乙個小組內的物件之間的相似性大於物件屬於不同組別之間的相似性。

聚類演算法將資料劃分為一定數量的集群(組，子集，或類別)。沒有公認的定義。大多數研究人員考慮內部均勻性和外部分離描述乙個群集。例如，在同一群集模式應該彼此相似，而在不同的集群模式不相似。在乙個明確的和有意義的方式既相似又相異應可考查。在這裡，我們用一些簡單的數學描述幾種型別的聚類。

典型的聚類分析與反饋途徑包括四個步驟，如圖所示：

1）特徵的選擇/提取

特徵的選擇應該從候選資料集中選擇可區分的特徵，而特徵提取利用轉換從原來的資料生成有用的、新穎的功能。聚類有效性都是非常關鍵的應用。好的選擇功能可以大大減少工作量和簡化序列設計過程。一般來說，理想的特徵識別模式屬於不同的集群中使用，對雜訊免疫，易於提取和解釋。

2）聚類演算法設計/選擇

這一步通常是結合了相應的措施，施工準則函式的選擇。根據他們是否彼此相似的模式進行分組。很顯然，接近措施直接影響導致集群的形成。幾乎所有的聚類演算法是顯式或隱式連線到接近測量的一些定義。一些演算法甚至直接對距離矩陣起作用。一旦乙個鄰近的措施被採用，就建立了乙個數學定義良好，並有豐富的解決方案的聚類準則函式使得集群的分割槽優化的問題。聚類是無處不在，並已開發出一種財富聚類演算法解決用來在特殊領域解決不同的問題。但是，沒有如果被普遍用來解決all problems的聚類演算法。

在技術層面，和聚類的方法上它一直很難通過不可能性定理的證明制定統一的框架推理(群集)。因此，重要的是要仔細研究問題的特點在手，以選擇或設計合適的聚類策略。

3）聚類驗證

有效的評價標準和準則是重要的，為使用者提供一定的信心**於使用演算法的聚類結果。這些結果應該是客觀的沒有偏見的，也應該是有喲個的，能解決問題的。

4）結果解釋

聚類演算法概述如下：

a 距離和相似措施

b 層級聚合/**

c 平方誤差 k-means 迭代自組織資料分析技術遺傳k-means 分割

d 通過混合密度的估計高斯混合密度分解自動聚類演算法

e 基於圖論分析

f 基於鏈結搜尋技術

g 基於模糊論

h 基於神經網路

i 基於核

j 時序資料序列相似形間接序列聚類統計序列聚類

k 大規模資料集

l 資料視覺化和高維資料

m 有多少類？

聚類演算法綜述

資料探勘中的聚類演算法綜述

聚類演算法近鄰聚類演算法

聚類演算法層次聚類演算法

聚類演算法綜述

資料探勘中的聚類演算法綜述

聚類演算法 近鄰聚類演算法

聚類演算法 層次聚類演算法

相關推薦

聚類演算法近鄰聚類演算法

聚類演算法層次聚類演算法