機器學習之聚類

1.概念

無監督學習：

無監督學習是機器學習的一種方法，沒有給定事先標記過的訓練示例，自動對輸入的資料進行分類或分群。無監督學習的主要運用包含：聚類分析、關係規則、維度縮減。它是監督式學習和強化學習等策略之外的一種選擇。乙個常見的無監督學習是資料聚類。在人工神經網路中，生成對抗網路、自組織對映和適應性共振理論則是最常用的非監督式學習。

聚類：

聚類是一種無監督學習。聚類是把相似的物件通過靜態分類的方法分成不同的組別或者更多的子集，這樣讓在同乙個子集中的成員物件都有相似的一些屬性，常見的包括在座標系中更加短的空間距離等。

2.效能度量

在機器學習中我們都需要對任務進行評價以便於進行下一步的優化，聚類的效能度量主要有一下兩種。

外部指標：是指把演算法得到的劃分結果跟某個外部的「參考模型」（如專家給出的劃分結果）比較

內部指標：是指直接考察聚類結果，不利用任何參考模型的指標。

3.距離計算

歐式距離:歐氏距離是最易於理解的一種距離計算方法，源自歐氏空間中兩點間的距離公式。

4.原型聚類

型聚類亦稱"基於原型的聚類" (prototype-based clustering)，此類演算法假設聚類結構能通過一組原型刻畫，在現實聚類任務中極為常用.通常情形下，演算法先對原型進行初始化，然後對原型進行迭代更新求解.採用不同的原型表示、不同的求解方式，將產生不同的演算法：k均值，lvq，高斯混合聚類。

k均值聚類演算法是一種迭代求解的聚類分析演算法，其步驟是

建立 k 個點作為起始質心（通常是隨機選擇）

當任意乙個點的簇分配結果發生改變時（不改變時演算法結束）

對資料集中的每個資料點：

對每個質心計算質心與資料點之間的距離

將資料點分配到距其最近的簇

對每乙個簇：計算簇中所有點的均值並將均值作為質心

聚類中心以及分配給它們的物件就代表乙個聚類。

**實現如下

機器學習之聚類

機器學習之聚類演算法

機器學習之DBSCAN聚類

機器學習之Kmeans聚類

機器學習之聚類

機器學習之聚類演算法

機器學習之DBSCAN聚類

機器學習之Kmeans聚類

相關推薦