高維資料軟子空間聚類FSC

一、針對問題

高位資料聚類存在兩個問題：

高緯資料在距離計算上，任意兩點的距離都可能極為相近，導致難以將相似點和不相似點區分出來；

高緯資料集的簇可能存在於不同的維度集合裡。

二、文章的靈感

子空間聚類的推進：

維數約減和特徵選擇背後的思路是：裁剪掉不重要的維度，實現從高維向低維空間的改變，以利於往後的聚類等工作。這樣的維度裁剪過程，極可能導致資訊的缺失；正是這個問題促進了子空間聚類的發展，如：

（1）任意定向子空間聚類（arbitrary oriented subspace），比如orclus和投影k均值聚類；特點為所產生的維度都是初始維度的線性組合。

（2）常規子空間聚類，比如part和subcad；做法是在初始維度中選擇若干維度成子空間組，再進行聚類。

子空間聚類的缺陷：統一為簇所在的子空間的各個維度分配相等的非零權值，為其他維度（non-cluster dimensions）賦權值為0。均勻賦權值導致了乙個問題：如何選擇恰當的維度？舉個例子，比如有乙個100維的資料集，已知各個簇嵌入在其中的50維子空間中，然而不同維度實際上對聚類的貢獻程度不見得完全相同，各維度之間甚至可能是相互關聯的，為子空間各個維度賦相同的權值是否合適？進一步說，而在未知子空間維數的情況下，我們如何知道合適的子空間是多少維？

為了解決以上的問題，在子空間聚類中引入模糊聚類和lac的思想，形成軟子空間的聚類fsc。通過密度稀疏來為各個維度分配不同的權值，解決了子空間維度的不夠靈活的維度選擇問題、並為所有維度分配合適的貢獻值，而不是均勻的權值。

三、 fsc模型

模型定義

（1）資料集

（2） d是原始資料集維度數

（3） k為聚類簇數

（4）給定k個中心點（最初隨機，往後通過em迭代更新的）

（5） k個d維的權重向量

（6） alpha是維度權重的模糊係數，同fcm裡的m一致要求取值大於1。

（7）在資料集d中找出點x作為cj，要求符合（注意cj所含點的數量可能不為1）

（8）目標函式:

限制條件為：

解析（1）求導，得到對中心點的更新：

（2）拉格朗日乘子更新權重：

那麼得到權重：

防除零處理，增加偏差項

四、實驗細節

不贅述。

五、附

高維資料軟子空間聚類FSC

軟子空間聚類自適應的軟子空間聚類演算法

聚類簡述高維資料聚類

高維資料聚類方法

高維資料軟子空間聚類FSC

軟子空間聚類 自適應的軟子空間聚類演算法

聚類 簡述高維資料聚類

高維資料聚類方法

相關推薦

軟子空間聚類自適應的軟子空間聚類演算法

聚類簡述高維資料聚類