聚類學習KMeans演算法各引數的含義

2021-10-10 17:19:36 字數 987 閱讀 7276

聚類學習kmeans演算法各引數的含義**

kmeans函式的引數講解

n_clusters:整型,預設值為8,表示生成的聚類數

max_iter:整型,預設值為300,表示執行一次kmeans演算法所需要的最大迭代數

n_init:整型,預設值為10,表示用不同的聚類中心初始化值執行演算法的次數最終解是在intertia意義下選出的最優結果

init:有三個可選:「k-means++」(預設值),「random」,或者傳遞乙個ndarray向量,下面具體說明:

k-means++用一種特殊的方法選定初始聚類中心,可加速迭代過程的收斂

random隨機從訓練資料中選取初始質心

如果傳遞的是ndarray,則應該形如(n_clusters,n_features)並給出初始質心

precompute_distances:三個可選值,『aute』,『true』,『false』。預計算距離。『auto』:如果樣本數乘以聚類數大於12million的話則不預計算距離;『true』:總是預計算距離;『false』:永遠不預計算距離

tol:float型別,預設值為1e-4,與intertia結合來群頂收斂條件

n_jobs:整型數,指定計算所用的程序數,內部原理是同時進行n_init指定次數的計算。若值為-1,則用所有的cpu進行運算,若值為1,則不進行並行運算。若值小於-1,則用到的cpu數為(n_cpus+1+n_jobs).

random_state:整型或者numpy.randomstate型別,可選擇。用於初始化質心的生成器(generator)。如果值為乙個整數,則確定乙個seed。此引數預設值為numpy的隨機數生成器。

copy_x:布林值,預設值為true。當我們用precompute_distances時,將資料中心化會得到更準確的結果。此引數值設定為true,則原始資料不會發生改變。若為false,則直接在原始資料上做修改並在函式返回值時將其還原。但是在資料計算過程中由於有對資料均值的加減運算,所以資料返回後,原始資料和計算前可能會有細小差別。

K Means聚類演算法

k means聚類演算法 intergret kmeans演算法的基本思想是初始隨機給定k個簇中心,按照最鄰近原則把待分類樣本點分到各個簇。然後按平均法重新計算各個簇的質心,從而確定新的簇心。一直迭代,直到簇心的移動距離小於某個給定的值。k means聚類演算法主要分為三個步驟 1 第一步是為待聚類...

聚類演算法 K means

演算法接受引數 k 然後將事先輸入的n個資料物件劃分為 k個聚類以便使得所獲得的聚類滿足 同一聚類中的物件相似度較高 而不同聚類中的物件相似度較小。聚類相似度是利用各聚類中物件的均值所獲得乙個 中心物件 引力中心 來進行計算的。k means演算法是最為經典的基於劃分的聚類方法,是十大經典資料探勘演...

k means聚類演算法

說到聚類,得跟分類區別開來,分類是按人為給定的標準將樣本歸到某個類別中去,在機器學習中多是監督學習,也就是訓練樣本要給標籤 正確的類別資訊 而聚類是在某種規則下自動將樣本歸類,在機器學習中是無監督學習,不需要提前給樣本打標籤。k means聚類演算法,就是在某種度量方式下,將樣本自動劃分到k個類別中...