機器學習(九) 聚類

2021-10-06 14:22:50 字數 1510 閱讀 4929

2. 原型聚類

3. 密度聚類

4. 層次聚類

聚類既可用於發掘資料內在分布結構,又可作為其他學習任務的前驅過程(如提前探索有幾種使用者型別)

(1)閔可夫斯基距離

(2)馬哈拉諾比斯距離

(3)相關係數

(4)夾角余弦

類均值、類的直徑、類的樣本散布矩陣與樣本協方差矩陣

最短距離、最長距離、中心距離、平均距離

代表演算法:k-means、學習向量量化、高斯混合聚類

初始中心的選擇,不同的初始中心會得到不同的聚類結果;比如可以用層次聚類對樣本進行聚類,得到k個類時停止。然後從每個類中選取乙個與中心距離最近的點

類別數k的選擇,嘗試用不同的k值聚類,類別數變多超過某個值後,平均直徑會不變,從而找到最優k值

演算法過程:

1)隨機選取一組原型向量作為簇均值

2)計算各點到p的距離,求最小距離的那個p和點xi

3)將p像xi靠攏

4)迭代,尋找最優

高斯混合聚類採用概率模型來表達聚類原型,採用em演算法迭代優化求解

【密度聚類演算法】

輸入:樣本集d=;鄰域引數(ε,minpts)

輸出:簇劃分c=

(1)初始化核心物件集合

(2)確定每個樣本的鄰域,如果鄰域內樣本數多於ε,則加入核心物件集合

(3)對每個核心物件找到密度可達的所有點形成簇

(4)對未訪問的核心物件繼續步驟(3)

(1)距離或相似度

(2)合併規則–類間距最小

(3)停止條件–類的個數達到閾值、類的直徑超過閾值

【層次聚合聚類演算法】

輸入:n個樣本組成的樣本集合及樣本之間的距離,類個數閾值δ

輸出:對樣本集合的乙個層次化聚類

(1)計算n個樣本兩兩之間的歐氏距離,記作矩陣[dij]n×n

(2)構造n個類,每個類只包含乙個樣本

(3)合併類間距離最小的兩個類,其中最短距離為類間距離,構建乙個新類

(4)計算新類與當前各類的距離。若類個數為δ終止,否則返回步驟(3)

機器學習筆記(九) 聚類

目錄 聚類 一詞最早應該出自 戰國策 中的 方以類聚,物以群分 這句話的意思是 同類的東西常聚在一起,志同道合的人相聚成群,反之就分開 將這句話中所發現的規律應用到我們的機器學習中對無標籤的資料進行處理,也即假設相似度高的輸入資料往往屬於同一類別,便是 聚類 的核心思想。形式化地說,假定樣本集 一般...

機器學習 聚類

聚類的過程是將樣本分類的過程,聚類屬於無監督學習,資料中沒有label,訓練之前並不知道樣本屬於哪乙個類別,需要借鑑經驗值。kmeans聚類 模型假設 資料的分布是k個 sigma 相同的高斯分布的,每個分布裡有 n 1,n 2,n k 個樣本,其均值分別是 mu 1,mu 2,mu k 那麼每個樣...

機器學習聚類

模型調參 from sklearn.cluster import dbscan 構建空列表,用於儲存不同引數組合下的結果 res 迭代不同的eps值 for eps in np.arange 0.001,1 0.05 迭代不同的min samples值 for min samples in rang...