筆記 PCA降維

作為乙個非監督學習的降維方法，pca（principal components analysis）顧名思義，就是找出資料裡最主要的方面，用資料裡最主要的方面來代替原始資料。具體的，假如我們的資料集是n維的，共有m個資料(x1,x2,…,xm)。我們希望將這m個資料的維度從n維降到k維，希望這m個k維的資料集盡可能的代表原始資料集。但是，資料從 n維降到k維肯定會有損失，因此，pca就是要是這個損失降到最小。

輸入：n維樣本集x = (x1,x2,…,xm)，要降維到的維數k

輸出：降維後的樣本集y

1.對所有的樣本進行中心化

2.計算樣本的協方差矩陣

3.求出協方差矩陣的特徵值及對應的特徵向量

4.將特徵向量按對應特徵值大小從上到下按行排列成矩陣，取前k行組成矩陣p

5.y = px即為降維到k維後的資料

1，僅僅需要以方差衡量資訊量，不受資料集以外的因素影響。　

2，各主成分之間正交，可消除原始資料成分間的相互影響的因素。

3，計算方法簡單，主要運算是特徵值分解，易於實現。

pca演算法的主要缺點有：

1，主成分各個特徵維度的含義具有一定的模糊性，不如原始樣本特徵的解釋性強。

2，方差小的非主成分也可能含有對樣本差異的重要資訊，因降維丟棄可能對後續資料處理有影響。

筆記 PCA降維

資料降維PCA 學習筆記

PCA降維演算法

PCA降維原理

筆記 PCA降維

資料降維PCA 學習筆記

PCA降維演算法

PCA降維原理

相關推薦