k means聚類演算法

2021-07-30 03:42:49 字數 1178 閱讀 6370

說到聚類,得跟分類區別開來,分類是按人為給定的標準將樣本歸到某個類別中去,在機器學習中多是監督學習,也就是訓練樣本要給標籤(正確的類別資訊);而聚類是在某種規則下自動將樣本歸類,在機器學習中是無監督學習,不需要提前給樣本打標籤。

k-means聚類演算法,就是在某種度量方式下,將樣本自動劃分到k個類別中去。比如,我想把隨機取的100個點劃分為3類,就可以用這種方法來做聚類。這裡的k是類別的個數,可以人為給定。

首先,k-means中的種子點初始值可以隨意給定,後面會在演算法中不斷修正;

其次,度量方式也可自選,比如對散點分類中的各種距離,或者樣本之間的相似係數等等;

最後,演算法中更新種子點的方式亦可自定。( 文章中給出了三種更新種子點的方式)

演算法:step-1:任意選定k個種子點(每個種子點代表乙個類別);

step-2:計算所有點(k個種子點可以不算)到k個種子點的「距離」;

step-3:對每個點,選擇「距離最小」的種子點,將該點歸於相應種子點類別;

step-4:按均值規則(或其他更新方法)更新種子點資訊;

step-5:迴圈step-2到step-4知道種子點不再變換或者達到最大迭代次數。

示例:在[0,1]上隨機撒500個點,按歐式距離將就近分為4類,種子點按均值規則更新,**在(  )給出,以下是示例結果:

第一張圖

隨機撒的500個點及用不同顏色標註的任意選定的4個種子點

第二張圖

將500個點按距離遠近依次歸到4個類別中的結果

第三張圖

更新一次種子點並重新將500個點按距離歸到4類的結果

第四張圖

對這500個點和4個初始種子點的最終聚類演算法結果圖

K Means聚類演算法

k means聚類演算法 intergret kmeans演算法的基本思想是初始隨機給定k個簇中心,按照最鄰近原則把待分類樣本點分到各個簇。然後按平均法重新計算各個簇的質心,從而確定新的簇心。一直迭代,直到簇心的移動距離小於某個給定的值。k means聚類演算法主要分為三個步驟 1 第一步是為待聚類...

聚類演算法 K means

演算法接受引數 k 然後將事先輸入的n個資料物件劃分為 k個聚類以便使得所獲得的聚類滿足 同一聚類中的物件相似度較高 而不同聚類中的物件相似度較小。聚類相似度是利用各聚類中物件的均值所獲得乙個 中心物件 引力中心 來進行計算的。k means演算法是最為經典的基於劃分的聚類方法,是十大經典資料探勘演...

K means聚類演算法

k means聚類演算法 k means 演算法以 k 為引數,把 n 個物件分成 k 個簇,使簇內具有較高的相似度,而簇間的相似度較低。其處理過程如下 1.隨機選擇k個點作為初始的聚類中心 2.對於剩下的點,根據其與聚類中心的距離,將其歸入最近的簇 3.對每個簇,計算所有點的均值作為新的聚類中心 ...