資料探勘 聚類 維數災難

2021-08-09 00:18:50 字數 706 閱讀 2634

1.資料探勘的主要任務:

描述資料,發現特點、模式、規律     eg聚類

**2大資料:不僅僅是指大量的資料、也指高維的資料。

3.給了乙個**:www.mmds.org  上面有書的pdf和ppt,具體課程怎麼看還未探索

4.聚類

聚類的目標:就是區分相似與不相似,不相似的分開,相似的組隊,這樣乙個過程。     啟:遇到相似,可想到聚類的方法

作用:更好的理解資料集的特點

聚類本身就是自然分為幾類的資料打亂後讓其恢復的演算法,所以可以利用這一點,判斷所聚的類是否合適

一、簇的密度    二、平均直徑(每個簇的直徑平均值)

5.維數災難

|ab| = √[(x₁-x₂)²+(y₁-y₂)²],如果維數足夠多,根號內項數就會足夠多,整體都趨近與無窮。不同點之間距離都往無窮跑,無法衡量

從余弦距離入手,兩向量余弦值=(兩向量的內積)/各自的模。

同樣假定抽取隨機向量,分子:兩向量的內積是隨機值之和趨向於0。分母:各自的模趨向無窮。整體:趨向於0即余弦值趨向於0

角度趨向90度

6.層次聚類

取距離最小的兩點作為一類           理解:距離越小越相似

如何代表乙個簇間的距離,eg、簇的質心間距離...資料探勘書    p195頁

【】像層次聚類這種所有點合併過程中形成樹的過程,很有實際意義。eg:衡量基因的相似度--樹型反應物種的進化過程

資料探勘 聚類

將現實世界的問題進行資料建模 mathlab 什麼是聚類分析 類似於 乙個同學是乙個資料,這乙個寢室的同學可以是乙個簇,不同的寢室是不同的簇,錯誤的,這個是劃分,聚類的甄別沒有準確的定則 簇內 同乙個寢室同學距離點小,一定比兩個不同的簇之間的兩個點直接距離小。與劃分不同點,他是有意義的 兩個簇的對小...

資料探勘(五) 聚類

聚類是資料探勘描述任務的乙個重要組成部分。資料探勘任務包括描述性任務和 性任務兩種。描述性任務包括聚類 關聯分析 序列 異常檢測等,性任務包括回歸和分類。聚類 將資料物件劃分為若干類,同一類的物件具有較高的相似度,不同類的物件相似度較低。從這個簡單的描述中,可以看出聚類的關鍵是如何度量物件間的相似性...

Python資料探勘 聚類

聚類 屬於無監督學習範疇 聚類 將無標籤資料聚成若干類 聚類方法的種類 kmeans聚類 和 dbscan密度聚類 呼叫時的區別 kmeans需要指定簇的個數 dbscan需要指定簇的個數。內部原理的區別 極簡描述 kmeans 隨機生成k個簇中心 每個資料點與其最近的簇中心連線 更新k個簇中心 同...