無監督學習 K means演算法

2021-10-04 03:38:57 字數 2838 閱讀 4622

:是指在未加標籤的資料中,根據資料之間本身的屬性特徵和關聯性對資料進行區分,相似相近或關聯性強的資料放在一起,而不相似不相近、關聯性不強的資料不放在一起。

應用場景:降維,聚類演算法,關聯演算法

有監督學習和無監督學習的區別

分類問題,要求實現必須明確知道各個類別的訊息,建立的前提是待分類項都有乙個類別都與之對應,但實際上分類問題獲取到的資料記錄對應的類別資訊無法明確,大資料處理的資料是海量的,資訊提交可能不完全

定義:聚類分析是分析研究物件(樣品或變數)如何按照多個方面的特徵進行綜合分類的一種多元統計方法,它是根據物以類聚的思想將相似的樣品(或變數)歸為一類。

把物件分為不同的類別,類別是依據資料的特徵確定的。

把相似的東西放在一起,類別內部的差異盡可能小,

類別之間的差異盡可能的大。

作用:

通過某種效能度量,對聚類結果的好壞進行性評估

聚類效能度量一般分兩類:

將聚類結果與某個「參考模型」進行比較,如將聚類學習結果與業務專家給出的劃分結果進行比較。

直接考察聚類結果不利用任何參考模型。

取值範圍【-1,1】,數值越接近1,角度越小,距離越近

**離群點檢測:**離群點指的是與「普通」點相對應的「異常」點,而這些「異常」點往往值的注意。

離群點檢測是資料探勘中重要應用,任務就是發現與大部分觀察物件顯著不同的物件,大部分的資料探勘方法會將這種差異資訊視作雜訊進行預處理,但是另外的一些應用中,離群點本身攜帶有重要的異常資訊,是需要被關注和研究的。

應用方式:

利用聚類演算法,找到遠離其他簇的小簇;

首先聚類所有物件,然後評估物件屬於簇的程度,對不同距離的點進行打分。

使用者畫像

將相似度高的使用者聚為一類

原型:樣本空間中具有代表性的點

基於原型聚類

通常演算法先對原型進行初始化,然後對原型進行迭代更新求解。採用不同的原型表示,不同的求解方式,即會產生不同的聚類演算法,不斷的計算找到最好的中心點,形成最好的分類

概念:基於各個樣本點與各個聚集簇的中心點距離遠近,進行劃分的聚類演算法。

演算法步驟:

1)選取?(想分成幾類)個物件作為初始中心(叫質心,是資料當中存在的點),作為聚類中心;

2)對每個樣本資料,計算它們與中心的歐氏距離,按距離最近的準則將它們分到距離最近的聚類

中心所對應的類;

3)更新聚類中心:將每個類別中所有物件所對應的均值作為該類別的新中心(新的質心,不一定是資料集上面的點),計算目標函式sse,如果sse變小了就更新,如果sse變大了,說明資料更離散了,就不更新;

sse:回歸和方差

e (xi-x)^2 + (yi-y)^2

4)判斷聚類中心和目標函式的值是否改變,若不變,則輸出結果,若改變,則返回 2)。

1.輸入聚類個數?,以及包含?個資料物件的資料集,輸出標準的k個聚類的一種演算法。

k怎麼分:從實際問題出發:根據經驗值

均方根:假設有m個樣本,k=√(?/2)

列舉法:用不同的?值進行聚類

2.然後將?個資料物件劃分為?個聚類,而最終所獲得的聚類滿足:

(1)同一聚類中的物件相似度較高;

(2)而不同聚類中的物件相似度較小。

初始質心的選擇:

k-means演算法會不會陷入一直選質心的過程,永遠停不下來?

不會。數學證明一定會收斂,目標函式sse是可收斂的函式,但資料量大時,收斂時間可能較長。在演算法中,預設迭代300次

1確定k和中心點 :3類,a1,a4,a7

2去計算a1-a8到a1/a4/a7的距離

新的中心點:

1.簡單、易於理解、運算速度快;

2.對處理大資料集,該演算法保持可伸縮性和高效性;

3.當簇接近高斯分布時,它的效果較好。

1.在 k-means演算法是區域性最優的,容易受到初始質心的影響;

2.在 k-means演算法中k值需要事先給定的,有時候k值的選定非常難以估計;

3.在簇的平均值可被定義的情況下才能使用,只能應用連續型資料;

該演算法需要不斷地進行樣本分類調整,不斷地計算調整後的新的聚類中心,因此當資料量非常大時,演算法的效能(時間和計算資源)開銷是非常大的;

4.對雜訊和孤立點資料敏感。

K means演算法 無監督學習

現實生活中常常會有這樣的問題 缺乏足夠的先驗知識,因此難以人工標註類別或進行人工類別標註的成本太高。很自然地,我們希望計算機能代我們完成這些工作,或至少提供一些幫助。根據類別未知 沒有被標記 的訓練樣本解決模式識別中的各種問題,稱之為無監督學習。我們可以怎樣最有用地對其進行歸納和分組?我們可以怎樣以...

無監督學習 K means演算法

聚類演算法是一種無監督學習演算法。k均值演算法是其中應用最為廣泛的一種,演算法接受乙個未標記的資料集,然後將資料聚類成不同的組。k均值是乙個迭代演算法,假設我們想要將資料聚類成k個組,其方法為 隨機選擇k個隨機的點 稱為聚類中心 對與資料集中的每個資料點,按照距離k個中心點的距離,將其與距離最近的中...

無監督學習 K Means聚類

無監督學習 通過無標籤的資料,學習資料的分布或資料與資料之間的關係。1定義 根據資料的 相似性 將資料分為多類的過程。1.1.演算法模組 k means 近鄰傳播演算法 dbscan演算法,高斯混合模型 gmm 等。1.2.python庫 sklearn.cluster 1.3.k means聚類演...