文字挖掘之文字聚類演算法之PAM(k 中心點)

2021-07-10 07:12:37 字數 904 閱讀 8251

pam演算法的原理:

選用簇中位置最中心的物件,試圖對n個物件給出k個劃分;代表物件也被稱為是中心點,其他物件則被稱為非代表物件;最初隨機選擇k個物件作為中心點,該演算法反覆地用非代表物件來代替代表物件,試圖找出更好的中心點,以改進聚類的質量;在每次迭代中,所有可能的物件對被分析,每個對中的乙個物件是中心點,而另乙個是非代表物件。對可能的各種組合,估算聚類結果的質量;乙個物件oi可以被使最大平方-誤差值減少的物件代替;在一次迭代中產生的最佳物件集合成為下次迭代的中心點。

pam演算法的偽**如下:

輸入:簇的數目k和包含n個物件的資料庫

輸出:k個簇,使得所有物件與其距離最近中心點的相異度總和最小

(1) 任意選擇k個物件作為初始的簇中心點 (2) repeat

(3) 指派每個剩餘物件給離他最近的中心點所表示的簇

(4) repeat

(5) 選擇乙個未被選擇的中心點oi

(6) repeat

(7) 選擇乙個未被選擇過的非中心點物件oh

(8) 計算用oh代替oi的總代價並記錄在s中

(9) until 所有非中心點都被選擇過

(10) until 所有的中心點都被選擇過

(11) if 在s中的所有非中心點代替所有中心點後的計算出總代價有小於0的存在,then找出s中的用非中心點替代中心點後代價最小的乙個,並用該非中心點替代對應的中心點,形成乙個新的k個中心點的集合;

(12) until 沒有再發生簇的重新分配,即所有的s都大於0.

該演算法的優點與缺點:

(1) 消除了k-平均演算法對於孤立點的敏感性。

(2) k-中心點方法比k-平均演算法的代價要高

(3) 必須指定k

(4) pam對小的資料集非常有效,對大資料集效率不高。特別是n和k都很大的時候。

文字挖掘之聚類演算法之CLARA聚類演算法

clara 大型應用中的聚類方法 kaufmann and rousseeuw in 1990 不考慮整個資料集,而是選擇資料的一小部分作為樣本.clara演算法的步驟 它從資料集中抽取多個樣本集,對每個樣本集使用pam,並以最好的聚類作為輸出 clara 演算法的步驟 1 for i 1 to v...

文字挖掘之文字聚類的介紹以及應用

文字聚類是乙個將文字集分組的全自動處理過程,是一種典型的無指導的機器學習過程。類是通過相關資料發現的一些組,類內的文字和其它組相比更為相近。換一種說法就是,文字聚類的目標是找到這樣一些類的集合,類之間的相似度盡可能最小,而類內部的相似性盡可能最大。作為一種無監督的機器學習方法,聚類是不需要訓練過程的...

NLP筆記之文字聚類

文字聚類是聚類在文字上的應用。由淺入深,需要先介紹聚類的思想。聚類是將給定物件的集合劃分為不同子集的過程,目標是使每個子集內部的元素盡量相似,不同子集 簇 之間的元素盡量不相似。根據元素從屬集合的確定程度,聚類分為硬聚類和軟聚類。1.硬聚類 每個元素被確定地分入乙個類 2.軟聚類 每個元素與每個簇都...