機器學習的降維和聚類

2021-08-20 05:49:34 字數 1355 閱讀 3972

oleg-人工智慧 第五期

pca:將原始的d維資料投影到低維空間,並盡可能的保留更多的重要資訊。主要是通過計算原始資料集的協方差矩陣,並求得協方差最大時的特徵值,及其所對應的特徵向量,這些特徵向量就是更重要的特徵向量。

pca的演算法原理:

x為n*d的資料集,n表示樣本數目,d表示樣本的特徵維度,xi表示第i個樣本,i=1,...n.

1 計算資料集x的均值:\[\overline x  = \frac\sum\limits_^n } \]

2 for 每個樣本\[\],減去均值\[\overline x \]:\[x = - \overline x \](資料去中心化,減去均值,保留差異)

3 計算協方差矩陣:

\[} = \operatorname ,)_},c = [}]\]

4 計算c的特徵值 、特徵向量

\[,\mu j} \right\}_}\],且\[ \geqslant \geqslant ...\]

5 return \[,\mu j} \right\}_}\] #前k個主成分

聚類就是按照某個特定標準(如距離準則)把乙個資料集分割成不同的類或簇,使得同乙個簇內的資料物件的相似性盡可能大,同時不在同乙個簇中的資料物件的差異性也盡可能地大。即聚類後同一類的資料盡可能聚集到一起,不同資料盡量分離。

劃分標準:樣本與樣本之間的距離或者相似度

劃分的基本原則:類內的散度最小,類間的散度最大。

常用的聚類演算法有:

• 基於距離、相似度的聚類演算法

– k-means(k均值)及其變種( k-centers 、mini batch k-means),其中

mini batch k-means適合大規模資料

– mean shift

– 吸引力傳播(affinity propagation ,ap)

– 層次聚類

• 聚合聚類(agglomerative clustering)

• 基於密度的聚類演算法

– dbscan、densitypeak(密度最大值聚類)

• 基於連線的聚類演算法

– 譜聚類

其中k-means是對簡單常用的聚類演算法,演算法的效率較高,能夠處理大規模資料

k-means演算法的基本原理:

1 給定n個物件的資料

2 確定類別數k,並隨即選擇k個物件,作為初始的類中心

3 對於資料中的每個物件,計算離其最近的類,並將其歸屬到最類似的類

4 計算類中所有資料的平均值,這個均值即為新的類中心

\[\mu _k^}\arg \min )} ^2}\],

\[\mu _k^\]

為第k個類新的中心

5 重複3、4部,直到資料點所屬類不在改變,輸出k個類

機器學習 分類 回歸 聚類 降維

一 分類 樸素貝葉斯 貝葉斯分類法是基於貝葉斯公式 先驗概率和後驗概率的關係 的統計學分類方法。它通過 乙個給定的元組屬於乙個特定類的概率,來進行分類。logistic回歸 logistic回歸得出 值後,根據 值大小進行分類。通常是二分類 決策樹基於樹的結構來進行決策 支援向量機svm suppo...

機器學習 分類 回歸 聚類 降維的區別

由上圖我們可以看到,機器學習分為四大塊,分別是 classification 分類 regression 回歸 clustering 聚類 dimensionality reduction 降維 給定乙個 樣本特徵 x 我們希望 其對應的屬性值 y 如果y 是離散的,那麼這就是乙個分類問題,反之,如...

機器學習中特徵降維和特徵選擇的區別

在machine learning中,特徵降維和特徵選擇是兩個常見的概念,在應用machine learning來解決問題的 中經常會出現。對於這兩個概念,很多初學者可能不是很清楚他們的區別。很多人都以為特徵降維和特徵選擇的目的都是使資料的維數降低,所以以為它們是一樣的,曾經我也這麼以為,這個概念上...