譜聚類的數學解釋

2021-10-06 01:22:11 字數 1262 閱讀 4737

(1).對於任意n*1的f向量,都有

我想到一種比較好的解釋:

譜聚類過程實際是在做乙個spectral embedding的過程,那麼它首先要做的就是選擇embedding空間的座標系,直觀理解,所有的f向量就是spectral embedding的乙個座標系,如果這個問題有k個解(要聚類成k類),那麼f1,f2,...,fk就構成了k個座標系,之前的n維度的點需要在這k個新座標系下有乙個新的座標表示。

那麼假設我們的圖6個節點可以劃分為3個類別,那就是意味著,我們選取的三個特徵向量應該為f_=[1,1,0,0,0,0,],f_=[0,0,1,1,0,0],f_=[0,0,0,0,1,1],那麼結點1的表示就是(1,0,0),節點3的表示就是(0,1,0),這樣本身就能夠對原始資料集有乙個聚類角度的embedding,是乙個符合聚類任務的embedding方法。

當然很重要的一點是這三個特徵向量都使得

min-cut

最早提出的min-cut的目標是假設樣本被分為k類,使得k類之間樣本連邊的權重和最小:

很明顯這樣做會產生比例失衡的切割,即很多類裡面只有乙個節點的情況出現,為了解決這個問題,提出了ratio-cut和n-cut

ratio-cut

ratio-cut考慮的是既要使得各類之間連邊的權重最小,也要使得每個類裡面節點的數量盡可能的大,目標方程定義為:

這裡涉及到定義乙個聚類指示向量h_即j類別向量的表示,初始化很有講究,初始化中就需要加入每個類別的社團的數量,這個數量的確定首先是乙個問題!!參照劉建平老師的推導過程:

根據上面的式子可以知道ratiocut問題就可以轉變為乙個跡優化的問題

在維度約簡過程中使用了特徵值對應的特徵向量來代替h矩陣,因為特徵向量只是我們一種理想的寄託,實際中求出來的

特徵向量有正有負,當然不會違揹我們最初的意願,所以最後要經過k-means處理

n-cut

n-cut切圖和ration-cut的思路一樣,只不過考慮到不一定節點數目越多聚類的效果就約好,而是類別內的權重越大聚類越好,這就很接近現代的社團檢測方法,類內邊的權重很大,類間權重很小,類內緊密,類間鬆弛

參考:劉建平老師的部落格

譜聚類概述

一 簡述 聚類是對探索性資料分析最廣泛使用的技術,在現在各個科學領域中處理沒有類標的資料時,人們總是想通過確定資料中不同樣本的歸類,來獲取對資料的直觀印象。傳統的聚類方法有很多,像k means,single linkage等,但是k means演算法有些缺點,比如當樣本維度特別大的時候,k mea...

20150916譜聚類學習

什麼是譜聚類?譜聚類的思想是生成乙個帶權無向圖g。g的每個頂點表示乙個樣本,連線頂點的邊表示兩個樣本之間具有相似性,邊的權值即樣本之間的相似度大小。然後對圖進行分割,使得不同組之間的邊的相似度盡可能的小,組內邊的相似度盡可能的大。因此,譜聚類需要解決兩個問題 如何生成帶權無向圖g?如何對圖進行分割?...

機器學習 譜聚類

譜聚類,譜就是指矩陣所有的特徵值的集合 而矩陣指的是由所有資料形成的圖的laplacian矩陣。因此譜聚類就是計算資料的laplacian矩陣的特徵向量,再取特徵向量中的一部分進行kmeans聚類。but,為什麼是laplacian矩陣?為什麼不直接對原始資料kmeans聚類?這也就是譜聚類實現起來...