子空間聚類演算法之PROCLUS

2021-09-25 18:07:40 字數 2973 閱讀 4756

proclus是基於投影的子空間聚類演算法,搜尋策略為自頂向下。演算法基於中心點思想,適合球形簇資料集,採用曼哈頓距離度量物件的相似性。

演算法一共分為以下三個階段:

初始階段,選擇中心點超集;

迭代階段,確定每乙個中心點的特徵維度,通過對聚類結果進行分析,並不斷迭代替換差的中心點,得到最優中心點集;

優化階段,對中心點維度進行優化,改善聚類質量;

輸入:資料集合d

dd,簇個數k

kk,常數a

aa,常數b

bb輸出:中心點集mcmc

mc從資料集中隨機選擇a∗k

a*ka∗

k(aa

a是常數)個資料構成初始中心點超集mc′

mc'mc

′;使用貪心演算法從mc′

mc'mc

′中選擇大小為b∗k

b*kb∗

k(bb

b為常數,且b

b<

a)的中心點集mcmc

mc;2.1 初始化mcmc

mc為空集2.2 從mc′

mc'mc

′中隨機選擇乙個樣本m

mm加入mcmc

mc(同時將m

mm從mc』

mc』mc

』中移除)

2.3 計算mc′

mc'mc

′中每個點與mcmc

mc中離該點最近的點的距離dis

disdi

s,選擇dis

disdi

s最大的點n

nn,將n

nn加入mcmc

mc中(同時將n

nn從mc』

mc』mc

』中移除)

2.4 重複2.3直到mcmc

mc中樣本點數為b∗k

b*kb∗

k輸入:資料集d

dd(大小為n

nn),中心點集mcmc

mc,簇平均維度l

ll,簇個數k

kk輸出:最終的中心點集m

mm,mcmc

mc中每個中心點對應的維度

從m cmc

mc中選擇乙個樣本i

ii計算mcmc

mc中其他樣本點與m的最小距離imi

ndis

ti_

imindi

st​(曼哈頓距離)

計算資料集中i區域性近鄰點集合ine

ighb

or

i_in

eigh

bor​

(資料集d

dd中離i

ii的曼哈頓距離小於imi

ndis

ti_

imindi

st​的樣本點即為i的區域性近鄰點)

計算i ne

ighb

or

i_in

eigh

bor​

與i

ii在每個特徵維度的平均距離xij

x_xi

j​(i表示中心點,j

jj表示對應維度),計算所有維度維度均值y

iy_i

yi​計算xij的標準差σi=

∑j=1

d(xi

j−yi

)2d−

1σ_i=\sqrt ^ -y_i)}^2}}

σi​=d−

1∑j=

1d​(

xij​

−yi​

)2​​

對於每個特徵維度計算zij

=xij

−yiσ

iz_=\frac-y_i}

zij​=σ

i​xi

j​−y

i​​,對zij

z_zi

j​進行排序,選取zij

z_zi

j​最小的k∗l

k*lk∗

l(最小有兩維特徵)個特徵對應的維度,作為候選中心點m

mm的子空間

重複1~6,為mcmc

mc中所有中心點找到對應子空間

從m cmc

mc中選擇k

kk個中心點,通過計算資料集中其他樣本點與中心點在中心點對應的子空間的曼哈頓截斷距離(manhattan segmental distance),進行樣本點的分配,使用mc中其他中心點替換掉mba

dm_

mbad

​(在聚類過長中分配到的資料點個數小於nk∗

c\frac*c

kn​∗

c,c是乙個常數,一般設為0.1)中心點

曼哈頓截斷距離:

d d(

x1,x

2)=∑

i∈d∣

x1,i

−x2,

i∣∣d

∣d_d(x_1,x_2)=\frac}|x_-x_|}

dd​(x1

​,x2

​)=∣

d∣∑i

∈d​∣

x1,i

​−x2

,i​∣

​(dd

d表示中心點對應的子空間)

輸入:最優的中心點集m,迭代階段最後得到的簇分配結果

\lbrace c_i,c_2....c_k\rbrace

輸出:聚類結果

丟棄m

mm中每個中心點都包含的維度

使用迭代階段的方法進行子空間選擇,但是與迭代階段不同的是,使用的不是區域性近鄰點而是迭代階段輸出的每個中心點的聚類結果

m中的中心點會得到新子空間,基於新的子空間進行資料的重新分配

[1]aggarwal c c , wolf j l , yu p s , et al. fast algorithms for projected clustering[j]. sigmod, 1999, 28(2):61-72.

軟子空間聚類 自適應的軟子空間聚類演算法

自適應的軟子空間聚類演算法 陳黎飛郭躬德 姜青山 期刊名稱 軟體學報 年卷 期 2010 021 010 摘要 軟子空間聚類是高維資料分析的一種重要手段 現有演算法通常需要使用者 事先設定一些全域性的關鍵引數 且沒有考慮子空間的優化 提出了乙個新的軟子空 間聚類優化目標函式 在最小化子空間簇類的簇內...

稀疏子空間聚類

解讀文獻 sparse subspace clustering cvpr09 現有的子空間聚類方法,可分為六大類 本人感覺大都很陌生,迭代的 k subspaces,fitting a subspace to each cluster.統計的 mixtures of probabilistic pc...

文字挖掘之聚類演算法之CLARA聚類演算法

clara 大型應用中的聚類方法 kaufmann and rousseeuw in 1990 不考慮整個資料集,而是選擇資料的一小部分作為樣本.clara演算法的步驟 它從資料集中抽取多個樣本集,對每個樣本集使用pam,並以最好的聚類作為輸出 clara 演算法的步驟 1 for i 1 to v...