knn聚類還是分類 聊聊聚類演算法

2021-10-13 16:16:45 字數 2043 閱讀 8063

學模式識別的時候覺得聚類是個很簡單很基礎的東西,但到了實習工作以及保研面試的時候又發現其實聚類沒那麼簡單,這裡從淺入深,結合個人專案以及其他寫的不錯的部落格來聊聊聚類演算法,有寫的不對的地方歡迎指出~~

用於資料探勘的聚類演算法有哪些,各有何優勢?​www.zhihu.com

09 聚類演算法 - 層次聚類 - cf-tree、birch、cure

dtw - 搜尋結果 - 知乎​www.zhihu.com

如何檢驗時間序列裡的異常事件?​www.zhihu.com

k-means聚類演算法的三種改進(k-means++,isodata,kernel k-means)介紹與對比​www.cnblogs.com

機器學習--k-means演算法優化​www.jianshu.com

聚類:層次聚類、基於劃分的聚類(k-means)、基於密度的聚類、基於模型的聚類 - stardsd - ​www.cnblogs.com

k-means聚類演算法原理 - 劉建平pinard - ​www.cnblogs.com

【機器學習】確定最佳聚類數目的10種方法 - 曹明 - ​www.cnblogs.com

1 聚類基礎

首先聚類是乙個無監督的方法,在沒有標籤的情況下按「類間差異盡可能大,類內差異盡可能小」的思路去劃分成乙個乙個的類簇。所以首先要做的就是怎麼衡量差異?這個問題其實就是similarity measurement,簡單來說就可以通過距離:

聚類可以分為硬聚類和模糊聚類:硬聚類的方法包括劃分方法、層次方法、基於密度的方法、基於網格的方法以及基於模型的方法等等,硬聚類強調每乙個資料只能被歸為一類,即資料集中每乙個樣本都是被100%確定得分到某乙個類別中;而模糊聚類是通過隸屬函式來確定每個資料隸屬於各個簇的程度,而不是將乙個資料物件硬性地歸類到某一簇中,可以理解為每個樣本是以一定的概率被分到某乙個類別中。

2 常見聚類演算法 k-means

改進思路3(kernel k-means):核k-均值聚類

改進思路4(bisecting k-means):二分k-means

改進思路5(elkan k-means) 距離計算優化

改進思路6(mini batch k-means) 適合大資料的聚類演算法

mini-batch的思想就是用部分資料,而不是全部資料,來更新模型的引數。實際上,這種思路不僅應用於k-means聚類,還廣泛應用於梯度下降、深度網路等機器學習和深度學習演算法。
a phrase-based method for hierarchical clustering of web snippets

document文件可以看成phrase短語的集合,那麼如果要對document文件做聚類,用無監督的方式把文件分入不同的簇,我們可以利用phrase短語:具備一定數量的相同phrase分詞的文件歸入同一類。在snippets短訊息這種應用情景下,phrase分詞數量

以後有空繼續更新~

聚類 分類演算法 聚類演算法和分類演算法總結

k means 是一種典型的劃分聚類演算法,它用乙個聚類的中心來代表乙個簇,即在迭代過程中選擇的聚點不一定是聚類中的乙個點,該演算法只能處理數值型資料 k modes k means演算法的擴充套件,採用簡單匹配方法來度量分型別資料的相似度 k prototypes 結合了k means和k mod...

聚類演算法 近鄰聚類演算法

time is always too short for those who need it,but for those who love,it lasts forever.dracula untold 近鄰聚類法同樣是一種基於距離閾值的聚類演算法。coding utf 8 近鄰聚類演算法的pyth...

聚類演算法 層次聚類演算法

層次聚類演算法 hierarchical clustering method 又稱為系統聚類法 分級聚類法。層次聚類演算法又分為兩種形式 凝聚層次聚類 首先將每個物件作為乙個簇,然後合併這些原子簇為越來越大的簇,直到某個終結條件被滿足。層次聚類 首先將所有物件置於乙個簇中,然後逐漸細分為越來越小的簇...