主成分分析（PCA）簡要介紹

通過這幾天的學習，對主成分分析（pca）的基本原理有所了解，博文主成分分析（pca）原理總結寫得非常棒，大家可以去與博主一起交流學習。

可能是我基礎薄弱，對於「pca的推導:基於最大投影方差」這部分的理解並不那麼直觀。我們知道「基於最小投影距離」就是樣本點到這個超平面的距離足夠近，也就是盡可能保留原資料的資訊；而「基於最大投影方差」就是讓樣本點在這個超平面上的投影能盡可能的分開，也就是盡可能保留原資料之間的差異性。

上述博文中沒有提及這個差異性的衡量方式，即為啥w'xx'w可以度量樣本的差異性。在另一篇博文向量表示，投影，協方差矩陣，pca中，先介紹了向量內積的意義，基的概念等，然後推出了差異性的度量方式，最後得出結論：xx'就是x的協方差矩陣，其中對角線元素為各個欄位的方差，而非對角線元素表示變數i和變數j兩個欄位的協方差（具體論述，請參閱原博文）。有了這個了解，下面的推導也就很容易理解了。

為了加深對pca演算法的理解，下面給出第一篇博文中總結的演算法流程。

輸入：n維樣本集d=(x1,x2,...,xm)

輸出：n'維樣本集d'=(z1,z2,...,zm), 其中n'≤n

1. 對所有樣本進行中心化（均值為0）：

2. 計算樣本的協方差矩陣xx'

3. 對協方差矩陣xx'進行特徵分解

4. 取出最大的n'個特徵值對應的特徵向量（w1,w2,...,wn'）,對其進行標準化，組成特徵向量矩陣w

5. 對於訓練集中的每乙個樣本，進行相應轉換：

6. 得到輸出樣本集d'=(z1,z2,...,zm)

備註：有時候，我們不指定降維後的n'的值，而是換種方式，指定乙個降維到的主成分比重閾值t。這個閾值t在(0,1]之間。假如我們的n個特徵值為λ1≥λ2≥...≥λn,則n'可以通過下式得到:

主成分分析（PCA）簡要介紹

pca主成分分析 PCA主成分分析（中）

主成分分析PCA

PCA 主成分分析

主成分分析（PCA）簡要介紹

pca主成分分析 PCA主成分分析（中）

主成分分析PCA

PCA 主成分分析

相關推薦