資料探勘 聚類

2021-08-17 21:48:56 字數 1120 閱讀 3505

將現實世界的問題進行資料建模 mathlab

什麼是聚類分析

類似於:乙個同學是乙個資料,這乙個寢室的同學可以是乙個簇,不同的寢室是不同的簇,(錯誤的,這個是劃分,聚類的甄別沒有準確的定則)

簇內:同乙個寢室同學距離點小,一定比兩個不同的簇之間的兩個點直接距離小。

與劃分不同點,他是有意義的

兩個簇的對小距離,兩個簇中物件距離最小距離

聚類分析的目的

分析後看他有什麼規律,可以對一簇資料進行一些定義

什麼是非聚類分析

監督分類 :分類標誌資訊

簡單分割:把學生的姓名按字母分到不同的組

查詢結果:外部說明的結果

聚類與分類

分類,試講乙個新來的的資料,將其分類打上標籤,絕對分割

聚類,找到他們有什麼不同(用距離來表示資料的不同度)

聚類與分類 評價標準

分類 準確率 召回率 精讀(資料分類後 資料感覺被完全分類了)

聚類 無監督指標 監督的指標(類內距離近,類外距離遠,用距離來度量,相似的資料距離近 ,不同點多的資料遠,一組很相近的資料組成了類\簇)

聚類的一般應用

模式識別

空間資料分析

影象識別,(對畫素識別,即可用聚類,如:距離近的很多綠色點,電腦識別可能是棵樹)

經典聚類演算法

影象邊緣檢測,(樹的綠色點,和天空的藍色點,組成兩大聚類,可以檢測出邊緣)

其他應用

對客戶進行聚類

手機使用者,購物使用者等

異常點檢測

信用卡盜用 ,(直接資料很平穩,盜用後可能被刷爆,可能信用卡被盜)

噪音 虛假評價

聚類的型別

同乙個資料 使用不同的聚類演算法(不同的觀點,不同的角度),可以的到不同的簇

分層聚類(大簇中繼續(有巢狀))

分割良好聚類(直接分)

函式聚類

基於中心聚類 (中心點最能代表簇的特點)

相近的聚類(聚類形狀不規則的)

概念聚類()

基於聚類的

聚類的其他區別

模糊聚類,資料距離不明顯

初始化質心的解決方案

二分法

資料探勘(五) 聚類

聚類是資料探勘描述任務的乙個重要組成部分。資料探勘任務包括描述性任務和 性任務兩種。描述性任務包括聚類 關聯分析 序列 異常檢測等,性任務包括回歸和分類。聚類 將資料物件劃分為若干類,同一類的物件具有較高的相似度,不同類的物件相似度較低。從這個簡單的描述中,可以看出聚類的關鍵是如何度量物件間的相似性...

Python資料探勘 聚類

聚類 屬於無監督學習範疇 聚類 將無標籤資料聚成若干類 聚類方法的種類 kmeans聚類 和 dbscan密度聚類 呼叫時的區別 kmeans需要指定簇的個數 dbscan需要指定簇的個數。內部原理的區別 極簡描述 kmeans 隨機生成k個簇中心 每個資料點與其最近的簇中心連線 更新k個簇中心 同...

聚類演算法資料探勘(五) 聚類

首先宣告,我是乙個菜鳥。一下文章中湧現技術誤導情況蓋不負責 聚類是資料探勘描述任務的乙個主要組成部分。資料探勘任務包括描述性任務和 性任務兩種。描述性任務包括聚類 關聯分析 序列 異常檢測等,性任務包括回歸和分類。聚類 將資料物件分別為若干類,同一類的物件具有較高的相似度,不同類的物件相似度較低。從...