無監督學習 K means演算法

：是指在未加標籤的資料中，根據資料之間本身的屬性特徵和關聯性對資料進行區分，相似相近或關聯性強的資料放在一起，而不相似不相近、關聯性不強的資料不放在一起。

應用場景：降維，聚類演算法，關聯演算法

有監督學習和無監督學習的區別：

分類問題，要求實現必須明確知道各個類別的訊息，建立的前提是待分類項都有乙個類別都與之對應，但實際上分類問題獲取到的資料記錄對應的類別資訊無法明確，大資料處理的資料是海量的，資訊提交可能不完全

定義：聚類分析是分析研究物件（樣品或變數）如何按照多個方面的特徵進行綜合分類的一種多元統計方法，它是根據物以類聚的思想將相似的樣品（或變數）歸為一類。

把物件分為不同的類別，類別是依據資料的特徵確定的。

把相似的東西放在一起，類別內部的差異盡可能小，

類別之間的差異盡可能的大。

作用：

通過某種效能度量，對聚類結果的好壞進行性評估

聚類效能度量一般分兩類:

將聚類結果與某個「參考模型」進行比較，如將聚類學習結果與業務專家給出的劃分結果進行比較。

直接考察聚類結果不利用任何參考模型。

取值範圍【-1,1】，數值越接近1，角度越小，距離越近

**離群點檢測：**離群點指的是與「普通」點相對應的「異常」點，而這些「異常」點往往值的注意。

離群點檢測是資料探勘中重要應用，任務就是發現與大部分觀察物件顯著不同的物件，大部分的資料探勘方法會將這種差異資訊視作雜訊進行預處理，但是另外的一些應用中，離群點本身攜帶有重要的異常資訊，是需要被關注和研究的。

應用方式：

利用聚類演算法，找到遠離其他簇的小簇；

首先聚類所有物件，然後評估物件屬於簇的程度，對不同距離的點進行打分。

使用者畫像：

將相似度高的使用者聚為一類

原型：樣本空間中具有代表性的點

基於原型聚類

通常演算法先對原型進行初始化，然後對原型進行迭代更新求解。採用不同的原型表示，不同的求解方式，即會產生不同的聚類演算法，不斷的計算找到最好的中心點，形成最好的分類

概念：基於各個樣本點與各個聚集簇的中心點距離遠近，進行劃分的聚類演算法。

演算法步驟：

1）選取?（想分成幾類）個物件作為初始中心（叫質心，是資料當中存在的點），作為聚類中心；

2）對每個樣本資料，計算它們與中心的歐氏距離，按距離最近的準則將它們分到距離最近的聚類

中心所對應的類；

3）更新聚類中心：將每個類別中所有物件所對應的均值作為該類別的新中心（新的質心，不一定是資料集上面的點），計算目標函式sse，如果sse變小了就更新，如果sse變大了，說明資料更離散了，就不更新；

sse：回歸和方差

e (xi-x)^2 + (yi-y)^2

4）判斷聚類中心和目標函式的值是否改變，若不變，則輸出結果，若改變，則返回 2）。

1.輸入聚類個數?，以及包含?個資料物件的資料集，輸出標準的k個聚類的一種演算法。

k怎麼分：從實際問題出發：根據經驗值

均方根：假設有m個樣本，k=√(?/2)

列舉法：用不同的?值進行聚類

2.然後將?個資料物件劃分為?個聚類，而最終所獲得的聚類滿足:

(1)同一聚類中的物件相似度較高；

(2)而不同聚類中的物件相似度較小。

初始質心的選擇：

k-means演算法會不會陷入一直選質心的過程，永遠停不下來？

不會。數學證明一定會收斂，目標函式sse是可收斂的函式，但資料量大時，收斂時間可能較長。在演算法中，預設迭代300次

1確定k和中心點：3類，a1,a4,a7

2去計算a1-a8到a1/a4/a7的距離

新的中心點：

1.簡單、易於理解、運算速度快；

2.對處理大資料集，該演算法保持可伸縮性和高效性；

3.當簇接近高斯分布時，它的效果較好。

1.在 k-means演算法是區域性最優的，容易受到初始質心的影響；

2.在 k-means演算法中k值需要事先給定的，有時候k值的選定非常難以估計；

3.在簇的平均值可被定義的情況下才能使用，只能應用連續型資料；

該演算法需要不斷地進行樣本分類調整，不斷地計算調整後的新的聚類中心，因此當資料量非常大時，演算法的效能（時間和計算資源）開銷是非常大的；

4.對雜訊和孤立點資料敏感。

無監督學習 K means演算法

K means演算法無監督學習

無監督學習 K means演算法

無監督學習 K Means聚類

無監督學習 K means演算法

K means演算法 無監督學習

無監督學習 K means演算法

無監督學習 K Means聚類

相關推薦

K means演算法無監督學習