機器學習之聚類

2021-10-02 06:49:13 字數 1317 閱讀 9408

1.概念

無監督學習:

無監督學習是機器學習的一種方法,沒有給定事先標記過的訓練示例,自動對輸入的資料進行分類或分群。無監督學習的主要運用包含:聚類分析、關係規則、維度縮減。它是監督式學習和強化學習等策略之外的一種選擇。 乙個常見的無監督學習是資料聚類。在人工神經網路中,生成對抗網路、自組織對映和適應性共振理論則是最常用的非監督式學習。

聚類:

聚類是一種無監督學習。聚類是把相似的物件通過靜態分類的方法分成不同的組別或者更多的子集,這樣讓在同乙個子集中的成員物件都有相似的一些屬性,常見的包括在座標系中更加短的空間距離等。

2.效能度量

在機器學習中我們都需要對任務進行評價以便於進行下一步的優化,聚類的效能度量主要有一下兩種。

外部指標:是指把演算法得到的劃分結果跟某個外部的「參考模型」(如專家給出的劃分結果)比較

內部指標:是指直接考察聚類結果,不利用任何參考模型的指標。

3.距離計算

歐式距離:歐氏距離是最易於理解的一種距離計算方法,源自歐氏空間中兩點間的距離公式。

4.原型聚類

型聚類亦稱"基於原型的聚類" (prototype-based clustering),此類演算法假設聚類結構能通過一組原型刻畫,在現實聚類任務中極為常用.通常情形下,演算法先對原型進行初始化,然後對原型進行迭代更新求解.採用不同的原型表示、不同的求解方式,將產生不同的演算法:k均值,lvq,高斯混合聚類。

k均值聚類演算法是一種迭代求解的聚類分析演算法,其步驟是

建立 k 個點作為起始質心(通常是隨機選擇)

當任意乙個點的簇分配結果發生改變時(不改變時演算法結束)

對資料集中的每個資料點:

對每個質心計算質心與資料點之間的距離

將資料點分配到距其最近的簇

對每乙個簇:計算簇中所有點的均值並將均值作為質心

聚類中心以及分配給它們的物件就代表乙個聚類。

**實現如下

機器學習之聚類演算法

聚類就是將乙個物件的集合 樣本集合 分割成幾個不想交的子集 每個子集所代表的語義需要使用者自己進行解釋 每個類內的物件之間是相似的,但與其他類的物件是不相似的.分割的類的數目可以是指定的 例如k means 也可以是有演算法生成的 dbscan 聚類是無監督學習的乙個有用工具。1原型聚類 原型聚類是...

機器學習之DBSCAN聚類

coding utf 8 created on wed nov 28 18 50 57 2018 author muli import numpy as np from sklearn.datasets.samples generator import make blobs from sklearn...

機器學習之Kmeans聚類

本次學習總結 1 理解相似度度量的各種方法及其相互聯絡 2 掌握k means演算法思路及其使用條件 3 層次聚類的思路和方法 4 密度聚類並能夠應用於實踐 dbscan 密度最大值聚類 5 譜聚類演算法 譜聚類演算法與pca之間的關係 聚類的定義 聚類就是將大量未知標註的資料,按照資料的內在相似性...