機器學習讀書筆記之8 聚類

聚類（cluster）是無監督學習的一種，與分類相區別的地方在於：

1. 分類的目的在於將資料進行明確的歸屬劃分，聚類的目的只是使同一類物件的相似度盡可能大；

2. 聚類作為非監督學習，不需要訓練和學習過程；

目前聚類的方法很多，根據基本思想的不同，大致可以將聚類演算法分為五大類：層次聚類演算法、分割聚類演算法、基於約束的聚類演算法、機器學習中的聚類演算法和用於高維度的聚類演算法。

k-means演算法

k-means可以說是聚類演算法中最簡單、也是應用最多的方法，關鍵點有兩個：

1）中心用各類別中所有資料的均值表示；

2）通過迭代演算法進行資料更新；

k-means演算法結果好壞依賴於對初始聚類中心的選擇、容易陷入區域性最優解、對k值的選擇沒有準則可依循、對異常資料較為敏感。

基於此，在k-means的基礎上誕生了許多變體演算法，比如bradley和fayyad等，主要改進點在於降低對中心的依賴，調整迭代過程中重新計算中心方法等。

層次聚類

層次聚類的基本步驟：

1、初始化過程，將每個樣本作為一類；

計算類間距離d，即樣本與樣本之間的相似度

給定閾值t，當相似度小於t時，可以合併

2、尋找各個類之間最近的兩個類，如果距離小於t，執行合併；

3、計算新合併的這個類與原有類之間的相似度；

4、重複2和3直到沒有可以合併的類，結束。

機器學習之聚類學習筆記

聚類試圖將資料集中的樣本劃分為若干個通常是不相交的子集，每個子集稱為乙個簇 cluster 通過這樣的劃分，每個簇可能對應於一些潛在的概念類別如淺色瓜深色瓜有籽瓜無籽瓜甚至本地瓜外地瓜等。這些概念對聚類演算法而言事先是未知的，聚類過程僅能自動形成簇結構，簇所對應的概念語義需...

機器學習讀書筆記

第一章引言介紹一些常識引入什麼是機器學習，機器學習的一些術語資料，規律，泛化，假設空間歸納偏好。1,假設空間假設空間監督學習的目的在於學習乙個由輸入到輸出的對映，這一對映由模型來表示。換句話說，學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合，這個集合就是假設空間 ...

機器學習筆記之K means聚類

k means聚類是聚類分析中比較基礎的演算法，屬於典型的非監督學習演算法。其定義為對未知標記的資料集，按照資料內部存在的資料特徵將資料集劃分為多個不同的類別，使類別內的資料盡可能接近，類別間的資料相似度比較大。用於衡量距離的方法主要有曼哈頓距離歐氏距離切比雪夫距離，其中歐氏距離較為常用。演算法...

機器學習讀書筆記之8 聚類

機器學習之 聚類學習筆記

機器學習讀書筆記

機器學習筆記之K means聚類

相關推薦

機器學習之聚類學習筆記