譜聚類的數學解釋

(1).對於任意n*1的f向量，都有

我想到一種比較好的解釋：

譜聚類過程實際是在做乙個spectral embedding的過程，那麼它首先要做的就是選擇embedding空間的座標系，直觀理解，所有的f向量就是spectral embedding的乙個座標系，如果這個問題有k個解（要聚類成k類），那麼f1,f2,...,fk就構成了k個座標系，之前的n維度的點需要在這k個新座標系下有乙個新的座標表示。

那麼假設我們的圖6個節點可以劃分為3個類別，那就是意味著，我們選取的三個特徵向量應該為f_=[1,1,0,0,0,0,],f_=[0,0,1,1,0,0],f_=[0,0,0,0,1,1]，那麼結點1的表示就是（1,0,0）,節點3的表示就是（0,1,0）,這樣本身就能夠對原始資料集有乙個聚類角度的embedding，是乙個符合聚類任務的embedding方法。

當然很重要的一點是這三個特徵向量都使得

min-cut

最早提出的min-cut的目標是假設樣本被分為k類，使得k類之間樣本連邊的權重和最小:

很明顯這樣做會產生比例失衡的切割，即很多類裡面只有乙個節點的情況出現，為了解決這個問題，提出了ratio-cut和n-cut

ratio-cut

ratio-cut考慮的是既要使得各類之間連邊的權重最小，也要使得每個類裡面節點的數量盡可能的大，目標方程定義為：

這裡涉及到定義乙個聚類指示向量h_即j類別向量的表示，初始化很有講究，初始化中就需要加入每個類別的社團的數量，這個數量的確定首先是乙個問題！！參照劉建平老師的推導過程：

根據上面的式子可以知道ratiocut問題就可以轉變為乙個跡優化的問題

在維度約簡過程中使用了特徵值對應的特徵向量來代替h矩陣，因為特徵向量只是我們一種理想的寄託，實際中求出來的

特徵向量有正有負，當然不會違揹我們最初的意願，所以最後要經過k-means處理

n-cut

n-cut切圖和ration-cut的思路一樣，只不過考慮到不一定節點數目越多聚類的效果就約好，而是類別內的權重越大聚類越好，這就很接近現代的社團檢測方法，類內邊的權重很大，類間權重很小，類內緊密，類間鬆弛

參考：劉建平老師的部落格

譜聚類的數學解釋

譜聚類概述

20150916譜聚類學習

機器學習譜聚類

譜聚類的數學解釋

譜聚類概述

20150916譜聚類學習

機器學習 譜聚類

相關推薦

機器學習譜聚類