文字挖掘之聚類演算法之CLARA聚類演算法

clara

大型應用中的聚類方法)(kaufmann and rousseeuw in 1990)

:不考慮整個資料集, 而是選擇資料的一小部分作為樣本.

clara演算法的步驟：

它從資料集中抽取多個樣本集, 對每個樣本集使用pam, 並以最好的聚類作為輸出

clara 演算法的步驟:

(1) for 　i = 1 to v (選樣的次數) ,重複執行下列步驟( (2) ～ (4) ) :

(2) 隨機地從整個資料庫中抽取乙個n(例如：(40 + 2 k))個物件的樣本,呼叫pam方法從樣本中找出樣本的k個最優的中心點。

(3)將這k個中心點應用到整個資料庫上，對於每乙個非代表物件oj ,判斷它與從樣本中選出的哪個代表物件距離最近.

(4) 計算上一步中得到的聚類的總代價. 若該值小於當前的最小值,用該值替換當前的最小值,保留在這次選樣中得到的k個代表物件作為到目前為止得到的最好的代表物件的集合.

(5) 返回到步驟(1) ,開始下乙個迴圈.

演算法結束後，輸出最好的聚類結果

clara演算法的優點與缺點：

優點: 可以處理的資料集比 pam大

缺點:1有效性依賴於樣本集的大小

2基於樣本的好的聚類並不一定是整個資料集的好的聚類, 樣本可能發生傾斜

例如, oi是整個資料集上最佳的k個中心點之一, 但它不包含在樣本中, clara將找不到最佳聚類

文字挖掘之文字聚類演算法之PAM（k 中心點）

pam演算法的原理選用簇中位置最中心的物件，試圖對n個物件給出k個劃分代表物件也被稱為是中心點，其他物件則被稱為非代表物件最初隨機選擇k個物件作為中心點，該演算法反覆地用非代表物件來代替代表物件，試圖找出更好的中心點，以改進聚類的質量在每次迭代中，所有可能的物件對被分析，每個對中的乙個物件是...

文字挖掘之文字聚類的介紹以及應用

文字聚類是乙個將文字集分組的全自動處理過程，是一種典型的無指導的機器學習過程。類是通過相關資料發現的一些組，類內的文字和其它組相比更為相近。換一種說法就是，文字聚類的目標是找到這樣一些類的集合，類之間的相似度盡可能最小，而類內部的相似性盡可能最大。作為一種無監督的機器學習方法，聚類是不需要訓練過程的...

NLP筆記之文字聚類

文字聚類是聚類在文字上的應用。由淺入深，需要先介紹聚類的思想。聚類是將給定物件的集合劃分為不同子集的過程，目標是使每個子集內部的元素盡量相似，不同子集簇之間的元素盡量不相似。根據元素從屬集合的確定程度，聚類分為硬聚類和軟聚類。1.硬聚類每個元素被確定地分入乙個類 2.軟聚類每個元素與每個簇都...

文字挖掘之聚類演算法之CLARA聚類演算法

文字挖掘之文字聚類演算法之PAM（k 中心點）

文字挖掘之文字聚類的介紹以及應用

NLP筆記之文字聚類

相關推薦