機器學習的降維和聚類

oleg-人工智慧第五期

pca:將原始的d維資料投影到低維空間，並盡可能的保留更多的重要資訊。主要是通過計算原始資料集的協方差矩陣，並求得協方差最大時的特徵值，及其所對應的特徵向量，這些特徵向量就是更重要的特徵向量。

pca的演算法原理：

x為n*d的資料集，n表示樣本數目，d表示樣本的特徵維度，xi表示第i個樣本，i=1,...n.

1 計算資料集x的均值：\[\overline x = \frac\sum\limits_^n } \]

2 for 每個樣本\[\]，減去均值\[\overline x \]：\[x = - \overline x \]（資料去中心化，減去均值，保留差異）

3 計算協方差矩陣：

\[} = \operatorname ,)_},c = [}]\]

4 計算c的特徵值、特徵向量

\[,\mu j} \right\}_}\]，且\[ \geqslant \geqslant ...\]

5 return \[,\mu j} \right\}_}\] #前k個主成分

聚類就是按照某個特定標準(如距離準則)把乙個資料集分割成不同的類或簇，使得同乙個簇內的資料物件的相似性盡可能大，同時不在同乙個簇中的資料物件的差異性也盡可能地大。即聚類後同一類的資料盡可能聚集到一起，不同資料盡量分離。

劃分標準：樣本與樣本之間的距離或者相似度

劃分的基本原則：類內的散度最小，類間的散度最大。

常用的聚類演算法有：

• 基於距離、相似度的聚類演算法

– k-means（k均值）及其變種（ k-centers 、mini batch k-means），其中

mini batch k-means適合大規模資料

– mean shift

– 吸引力傳播（affinity propagation ，ap）

– 層次聚類

• 聚合聚類（agglomerative clustering）

• 基於密度的聚類演算法

– dbscan、densitypeak（密度最大值聚類）

• 基於連線的聚類演算法

– 譜聚類

其中k-means是對簡單常用的聚類演算法，演算法的效率較高，能夠處理大規模資料

k-means演算法的基本原理：

1 給定n個物件的資料

2 確定類別數k，並隨即選擇k個物件，作為初始的類中心

3 對於資料中的每個物件，計算離其最近的類，並將其歸屬到最類似的類

4 計算類中所有資料的平均值，這個均值即為新的類中心

\[\mu _k^}\arg \min )} ^2}\]，

\[\mu _k^\]

為第k個類新的中心

5 重複3、4部，直到資料點所屬類不在改變，輸出k個類

機器學習分類回歸聚類降維

一分類樸素貝葉斯貝葉斯分類法是基於貝葉斯公式先驗概率和後驗概率的關係的統計學分類方法。它通過乙個給定的元組屬於乙個特定類的概率，來進行分類。logistic回歸 logistic回歸得出值後，根據值大小進行分類。通常是二分類決策樹基於樹的結構來進行決策支援向量機svm suppo...

機器學習分類回歸聚類降維的區別

由上圖我們可以看到，機器學習分為四大塊，分別是 classification 分類 regression 回歸 clustering 聚類 dimensionality reduction 降維給定乙個樣本特徵 x 我們希望其對應的屬性值 y 如果y 是離散的,那麼這就是乙個分類問題，反之，如...

機器學習中特徵降維和特徵選擇的區別

在machine learning中，特徵降維和特徵選擇是兩個常見的概念，在應用machine learning來解決問題的中經常會出現。對於這兩個概念，很多初學者可能不是很清楚他們的區別。很多人都以為特徵降維和特徵選擇的目的都是使資料的維數降低，所以以為它們是一樣的，曾經我也這麼以為，這個概念上...

機器學習的降維和聚類

機器學習 分類 回歸 聚類 降維

機器學習 分類 回歸 聚類 降維的區別

機器學習中特徵降維和特徵選擇的區別

相關推薦

機器學習分類回歸聚類降維

機器學習分類回歸聚類降維的區別