聚類簡述高維資料聚類

concept：

聚類其實就是講乙個物件的集合分為由相似物件組成的多個類的過程。聚類與分類的區別在於，聚類劃分的類是不確定的，需要自身進行相似性比較，並且確定劃分的類。

一般而言，對於聚類演算法的要求還是比較高的。

而對於高維資料聚類的聚類演算法主要有兩種：子空間聚類（subspace clustering）和基於相似性度量的聚類（similarity

-based

clustering）。

高維資料聚類的難點在於：

1、適用於普通集合的聚類演算法，在高維資料集合中效率極低

2、由於高維空間的稀疏性以及最近鄰特性，高維的空間中基本不存在資料簇。

subspace clustering：

選取與給定簇密切相關的維，然後在對應的子空間進行聚類。傳統的特徵選擇演算法可以用來確定相關維。

特徵選擇演算法綜述：

不同的簇對應不同的子空間，並且每個子空間維數不同，因此也不可能乙個子空間就可以發現所有的簇。為了解決這個問題，對全空間聚類進行了推廣，稱為子空間聚類（投影聚類）。

定義：考慮在某個多維空間中的乙個資料集，乙個投影聚類就是乙個資料點的子集c以及乙個維的子集d，使得c中的點在d中很緊密地聚集在一起

演算法：重疊劃分子空間聚類演算法、非重疊劃分子空間聚類、最優投影聚類演算法等等

未完待續！

續（1）：

早期演算法分析：

clique聚類演算法是基於密度和網格聚類演算法的結合體。演算法對資料輸入順序不敏感，可伸展性好，但是演算法過程較為複雜。

演算法步驟：

1、對n維空間進行劃分，對每乙個維度等量劃分，將全空間劃分為互不相交的矩形單元，並且識別其中的密集單元。（需要兩個引數）

因為這樣會有n^n個單元，遍歷每個單元，獲取該單元的資料點的個數，這樣的做法很不合實際。我們簡單分析一下，假設n=10，那麼10^10就是100億了。如果n是幾十或者上百的話，這個就更大了。 o(n^n)

clique採用自下而上的識別方法：首先確定低維空間的資料密集單元，當確定了k-1維中所有的密集單元，k維空間上的可能密集單元就可以確定（演算法1.1）。因為，當某一單元的資料在k維空間中是密集的，那麼在任一k-1維空間中都是密集的。如果資料在某一k-1維空間中不密集，那麼資料在k維空間中也是不密集。

演算法1.1

其中，sk是k維候選密集單元集，dk-1是k-1維密集單元集，u1.ak表示u1單元的第k維，u1.[lk，hk]表示u1在第k維上的區間。

這種演算法的缺點在於可能產生大量候選集，並且會頻繁使用資料點（實際中會頻繁掃瞄資料庫）。雖然這種演算法減少了需要驗證的密集單元個數，但隨著維數的增加，這個數量級依然很大。

clique採用了基於「覆蓋」的修剪原則來對子空間進行修剪。利用mdl（minimum description length）原理，對候選集進行剪枝。

基本原理是：如果k維空間存在乙個聚類，那麼k維空間的所有子空間都應該包含聚類的所有點。所以對k維空間的所有子空間從大到小進行排序，然後剪枝。

即：k維空間的所有密集子空間為s1，s2，……，sn，

，表示乙個子空間sj中所有稠密單元內資料點的個數。

求出cl(i)最小是的 i 值，就是剪枝點，留下剪枝點左邊的，去掉剪枝點右邊的。

2、識別聚類

利用dfs（deep first search）來發現空間中的聚類。即從d中乙個密集單元u開始，按照深度優先遍歷的原則，查詢連通的集合。

3、為每個簇生成最小化描述

即利用貪心演算法找到覆蓋每個子聚類的最大區域覆蓋，然後再確定最小覆蓋

區域是指每一邊都與座標軸平行的類矩形。最大區域是指，區域r包含於乙個聚類c，當且僅當r∩c=r，並且不存在r的超集r，也包含於c。

首先選擇乙個密集單元，找到包含該密集單元的最大區域，然後再選擇該聚類中沒有包含在已有最大區域中的密集單元，找到包含密集單元的最大區域，知道所有密集單元都包含在最大區域集中。因為最大區域集中存在重疊的子空間，所以根據最大區域集，來確定最小覆蓋。

聚類簡述高維資料聚類

高維資料聚類方法

聚類簡述機器學習

高維資料軟子空間聚類FSC

聚類 簡述高維資料聚類

高維資料聚類方法

聚類簡述 機器學習

高維資料軟子空間聚類FSC

相關推薦

聚類簡述高維資料聚類

聚類簡述機器學習