主成分分析法(PCA)

2021-08-20 20:29:55 字數 1545 閱讀 7492

一、數學基礎

1.方差:用來計算每乙個變數(觀察值)與總體均數之間的差異。

總體方差計算公式:

為總體方差,  為變數,  為總體均值,  為總體例數。

)2.協方差:

在概率論

和統計學中,協方差用於衡量兩個變數的總體誤差。而方差是

協方差的一種特殊情況,即當兩個變數是相同的情況。

期望值分別為

e[ x]與

e[ y]的兩個實隨機變數

x與 y之間的

協方差cov(x,y)定義為:

從直觀上來看,協方差表示的是兩個變數總體誤差的期望。

3.正交化:正交化是指將線性無關向量系轉化為正交系的過程。

4.協方差矩陣:

設 為n維隨機變數,稱矩陣

例如,二維隨機變數

的協方差矩陣為

其中 

由於 ,所以協方差矩陣為對稱非負定矩陣

5.協方差矩陣的特徵值及其特徵向量

設 a 是n階方陣,如果存在數m和非零n維列向量 x,使得 ax=mx 成立,則稱 m 是a的乙個特徵值(characteristic value)或本徵值(eigenvalue)。非零n維列向量x稱為矩陣a的屬於(對應於)特徵值m的特徵向量或本徵向量,簡稱a的特徵向量或a的本徵向量。

設 a為n階矩陣,若存在

常數λ及n維

非零向量x,使得

ax=λx,則稱λ是矩陣

a的特徵值,x是

a屬於特徵值λ的

特徵向量。

a的所有特徵值的全體,叫做a的譜,記為

.matlab中利用eig函式求解特徵值和特徵向量

matlab中的eig函式參考   

二、主成分分析法

1.簡介

主成分分析法是一種數學變換的方法, 它把給定的一組相關變數通過線性變換轉成另一組不相關的變數,這些新的變數按照方差依次遞減的順序排列。在數學變換中保持變數的總

方差不變,使第一變數具有最大的方差,稱為第一主成分,第二變數的方差次大,並且和第一變數不相關,稱為第二主成分。依次類推,i個變數就有i個主成分。

2.基本思想

pca的基本原理就是將乙個矩陣中的樣本資料投影到乙個新的空間中去。對於乙個矩陣來說,將其對角化即產生特徵根及特徵向量的過程,也是將其在標準正交基上投影的過程,而特徵值對應的即為該特徵向量方向上的投影長度,因此該方向上攜帶的原有資料的資訊越多。

3.分析步驟

1)將原始資料按行排列組成矩陣x

2)對x進行

資料標準化

,使其均值變為零

3)求x的協方差矩陣c

4)將特徵向量按特徵值由大到小排列,取前k個按行組成矩陣p

5)通過計算y = px,得到降維後資料y

6)用下式計算每個特徵根的貢獻率vi;vi=xi/(x1+x2+........)

7)根據特徵根及其特徵向量解釋主成分

物理意義

。三、主成分分析應用舉例

2.協方差計算舉例

3.spss軟體進行主成分分析例子

主成分分析應用

主成分分析例項和因子分析

綜合因子得分計算

主成分分析法 PCA 答疑

問 為什麼要去均值?1 我認為歸一化的表述並不太準確,按統計的一般說法,叫標準化。資料的標準化過程是減去均值並除以標準差。而歸一化僅包含除以標準差的意思或者類似做法。2 做標準化的原因是 減去均值等同於座標的移動,把原始資料點的重心移到和原點重合,這樣利於很多表達,比如資料的協方差矩陣可以寫成xx ...

主成分分析法(PCA) 降維

主成分分析是一種降維演算法,它能將多個指標轉換為少數幾 個主成分,這些主成分是原始變數的線性組合,且彼此之間 互不相關,其能反映出原始資料的大部分資訊。一般來說,當研究的問題涉及到多變數且變數之間存在很強的相關性時,我們可考慮使用主成分分析的方法來對資料進行簡化。樣本標準化 計算標準化樣本協方差矩陣...

主成分分析法

相關係數 矩陣 相當於消除量綱的表示變數間相關性的乙個矩陣 協方差矩陣 它是沒有消除 量綱的表示變數間相關性的矩陣。對比下它們的等式變換關係 r cov x,y d x d y 1 求相關係數矩陣或者協方差矩陣r 2 計算r的特徵值 3 求特徵根對應的單位特徵向量 4 主成分選取,含 釋及計算 主成...