資料探勘 K means

2022-03-30 11:01:08 字數 1581 閱讀 6287

k-means方法是macqueen2023年提出的。給定乙個資料集合x和乙個整數k(n),k-means方法是將x分成k個聚類並使得在每個聚類中所有值與該聚類中心距離的總和最小。

k-means聚類方法分為以下幾步:

[1] 給k個cluster選擇最初的中心點,稱為k個means。

[2] 計算每個物件和每個中心點之間的距離。

[3] 把每個物件分配給距它最近的中心點做屬的cluster。

[4] 重新計算每個cluster的中心點。

[5] 重複2,3,4步,直到演算法收斂。

以下幾張圖動態展示了這幾個步驟:

下面,我們以乙個具體的例子來說明一下k-means演算法的實現。

k-means演算法的優缺點:

優點:(1)對於處理大資料量具有可擴充性和高效率。演算法的複雜度是o(tkn),其中n是物件的個數,k是cluster的個數,t是迴圈的次數,通常k,t

缺點:(1)cluster的個數必須事先確定,在有些應用中,事先並不知道cluster的個數。

(2)k個中心點必須事先預定,而對於有些字元屬性,很難確定中心點。

(3)不能處理噪音資料。

(4)不能處理有些分布的資料(例如凹形)

k-means方法的變種

(1) k-modes :處理分類屬性

(2) k-prototypes:處理分類和數值屬性

(3) k-medoids

它們與k-means方法的主要區別在於:

(1)最初的k個中心點的選擇不同。

(2)距離的計算方式不同。

(3)計算cluster的中心點的策略不同。

資料探勘演算法 k means

k means 演算法r實現 先用setwd設定工作空間,如d盤,並將相關資料拷貝到該目錄下 setwd d k means 讀入資料 data read.csv d k means data km kmeans data,center 3 print km km size sum km size ...

資料探勘演算法 K means演算法

k means中文稱為k均值聚類演算法,在1967年就被提出 所謂聚類就是將物理或者抽象物件的集合分組成為由類似的物件組成的多個簇的過程 聚類生成的組成為簇 簇內部任意兩個物件之間具有較高的相似度,不同簇的兩個物件之間具有較高的相異度 相異度和相似度可以根據描述的物件的屬性值來計算 物件間的距離是最...

資料探勘之K Means演算法

k means思想 將n個樣本分成k個聚類,每個聚類裡的樣本關聯性 或者說是相似性 比較高。舉個例子,假如有5個樣本,每個樣本是乙個2維向量,分別記做a,b,c,d,e,我要將他們分成2個聚類,第一步是隨機選2個樣本 也可以是虛擬的 把它們當做中心點,然後將 a,b,c,d,e歸類到距離最小的那個中...