關於聚類演算法的一些個人想法

2021-05-25 11:06:53 字數 708 閱讀 8689

現在的專案是在做的超大規模的矩陣的奇異值分解,其目的是對資料進行求特徵值,做為聚類演算法的輸入

因為很久以前就想過聚類單詞,所以對聚類演算法比較感興趣。目前只聽說了k-means演算法,大概的思想就是,把每個資料看做向量空間中的點,然後進行聚類。問題是怎麼得到這個資料的表示向量。做奇異值分解的目的就是得到乙個特徵向量可以表示這個資料。

下面是我對這個特徵向量的一些理解:

1.將一組資料用相應的一組特徵向量來表示,那麼,特徵向量之間的關係一定要與資料之間的關係相一致(比如距離)

2.先不考慮怎麼得到特徵向量,特徵向量的維數 就值得考慮一下:

如果只有2個資料,那麼他們之間的關係只有一組,只需要用一維的向量空間就可以表示他們之間的相對位置關係;

如:x-y=1  可以表示2個資料之間的關係,並且只要確定其中乙個,另乙個就確定了

如果有3個資料,那麼他們之間的關係有3組,用2維的向量空間可以表示他們之間的相對關係;

如:3個資料兩兩之間距離相等,那麼就可以用乙個等邊三角形來表示他們之間的位置關係,並且只要確定其中2個點,另外乙個就確定了

依次類推,有n個資料就有n(n-1)/2 組關係,可以用n-1維的向量空間表示他們之間的相對位置關係。

實際上是不是用n-1維的空間表示n個資料之間的關係,我也不知道,以上純屬個人猜想

除了以上猜想以外,我還十分想只有,有沒有不是基於特徵向量的聚類演算法,

比如直接基於資料之間的距離矩陣的演算法~

一些個人的想法

今天是2016年4月2日,星期六。目前我已經在網際網路行業裡摸爬滾打了三年有餘,加上七年的求學生涯,轉眼一看已經十年了。過去的十年是網際網路行業蓬勃發展的十年,雲計算 資料探勘以及移動網際網路的興起讓我們的生活出現了翻天覆地的變化 在這個遍地充滿機會的時代裡,出現了乙個又乙個的弄潮兒 這是乙個最好的...

(原)關於指標的一些個人想法

指標是c 的一種復合型別,是用於儲存位址的一種容器。例如 int a 1 int p a p是乙個用於儲存a的位址的位址,這時p就是乙個指向a的位址的位址 即等同於a的位址 而 p就相當於a的值!任何時候使用指標都需要記得的兩點是,給指標賦值,無論是一級指標還是多級指標,值必須是乙個位址!另一點是必...

關於靜態建構函式的一些個人想法

平時程式設計基本沒有使用過靜態建構函式,通常有使用到靜態變數時都在定義時就初始化好。於是就產生了乙個疑問靜態建構函式在實際程式設計中究竟有什麼作用?首先查了一下msdn是這樣解釋的,靜態建構函式的典型用途是 當類使用日誌檔案時,將使用這種建構函式向日誌檔案中寫入項。在網上查了一通,大家對靜態建構函式...