主成分分析法PCA 通俗易懂

2021-09-05 01:36:42 字數 2587 閱讀 3734

1.向量a和b的內積表示的是向量a在b上的投影長度。那麼將乙個向量與新的基做內積,結果則表示該向量在新的基下的座標。

2.將新選定的基表示成矩陣形式,與原向量相乘,就得到了原向量在新選定的基所表示的空間(或座標系)中的座標表示了。

3.怎樣選定這組基用於資料降維?(目標)

(1)首先將資料變換到選定基上後,資料的方差要大,盡量分散。

(2)各個基要正交(表示的資訊要不相關,若單純按方差選定基,則選定的基存在很大的相關性)

4.怎麼做?怎麼找這組正交基? (做法)

(1)協方差矩陣可以很好地表示各個特徵的方差和不同特徵之間的協方差

(2)按目標要求需要將協方差矩陣除去對角線元素化為0,對角線元素按從大到小排列。協方差矩陣對角化。

(3)對角化後按特徵值大小排列,選定前k個最大的特徵值對應的特徵向量作為降維後的新基。

pca(principal component analysis)是一種常用的資料分析方法。pca通過線性變換將原始資料變換為一組各維度線性無關的表示,可用於提取資料的主要特徵分量,常用於高維資料的降維。網上關於pca的文章有很多,但是大多數只描述了pca的分析過程,而沒有講述其中的原理。這篇文章的目的是介紹pca的基本數學原理,幫助讀者了解pca的工作機制是什麼。

當然我並不打算把文章寫成純數學文章,而是希望用直觀和易懂的方式敘述pca的數學原理,所以整個文章不會引入嚴格的數學推導。希望讀者在看完這篇文章後能更好的明白pca的工作原理。

根據上面對pca的數學原理的解釋,我們可以了解到一些pca的能力和限制。pca本質上是將方差最大的方向作為主要特徵,並且在各個正交方向上將資料「離相關」,也就是讓它們在不同正交方向上沒有相關性。

因此,pca也存在一些限制,例如它可以很好的解除線性相關,但是對於高階相關性就沒有辦法了,對於存在高階相關性的資料,可以考慮kernel pca,通過kernel函式將非線性相關轉為線性相關,關於這點就不展開討論了。另外,pca假設資料各主特徵是分布在正交方向上,如果在非正交方向上存在幾個方差較大的方向,pca的效果就大打折扣了。

最後需要說明的是,pca是一種無引數技術,也就是說面對同樣的資料,如果不考慮清洗,誰來做結果都一樣,沒有主觀引數的介入,所以pca便於通用實現,但是本身無法個性化的優化。

希望這篇文章能幫助朋友們了解pca的數學理論基礎和實現原理,藉此了解pca的適用場景和限制,從而更好的使用這個演算法。

1.向量a和b的內積表示的是向量a在b上的投影長度。那麼將乙個向量與新的基做內積,結果則表示該向量在新的基下的座標。

2.將新選定的基表示成矩陣形式,與原向量相乘,就得到了原向量在新選定的基所表示的空間(或座標系)中的座標表示了。

3.怎樣選定這組基用於資料降維?(目標)

(1)首先將資料變換到選定基上後,資料的方差要大,盡量分散。

(2)各個基要正交(表示的資訊要不相關,若單純按方差選定基,則選定的基存在很大的相關性)

4.怎麼做?怎麼找這組正交基? (做法)

(1)協方差矩陣可以很好地表示各個特徵的方差和不同特徵之間的協方差

(2)按目標要求需要將協方差矩陣除去對角線元素化為0,對角線元素按從大到小排列。協方差矩陣對角化。

(3)對角化後按特徵值大小排列,選定前k個最大的特徵值對應的特徵向量作為降維後的新基。

pca(principal component analysis)是一種常用的資料分析方法。pca通過線性變換將原始資料變換為一組各維度線性無關的表示,可用於提取資料的主要特徵分量,常用於高維資料的降維。網上關於pca的文章有很多,但是大多數只描述了pca的分析過程,而沒有講述其中的原理。這篇文章的目的是介紹pca的基本數學原理,幫助讀者了解pca的工作機制是什麼。

當然我並不打算把文章寫成純數學文章,而是希望用直觀和易懂的方式敘述pca的數學原理,所以整個文章不會引入嚴格的數學推導。希望讀者在看完這篇文章後能更好的明白pca的工作原理。

根據上面對pca的數學原理的解釋,我們可以了解到一些pca的能力和限制。pca本質上是將方差最大的方向作為主要特徵,並且在各個正交方向上將資料「離相關」,也就是讓它們在不同正交方向上沒有相關性。

因此,pca也存在一些限制,例如它可以很好的解除線性相關,但是對於高階相關性就沒有辦法了,對於存在高階相關性的資料,可以考慮kernel pca,通過kernel函式將非線性相關轉為線性相關,關於這點就不展開討論了。另外,pca假設資料各主特徵是分布在正交方向上,如果在非正交方向上存在幾個方差較大的方向,pca的效果就大打折扣了。

最後需要說明的是,pca是一種無引數技術,也就是說面對同樣的資料,如果不考慮清洗,誰來做結果都一樣,沒有主觀引數的介入,所以pca便於通用實現,但是本身無法個性化的優化。

希望這篇文章能幫助朋友們了解pca的數學理論基礎和實現原理,藉此了解pca的適用場景和限制,從而更好的使用這個演算法。

主成分分析法(PCA)

一 數學基礎 1.方差 用來計算每乙個變數 觀察值 與總體均數之間的差異。總體方差計算公式 為總體方差,為變數,為總體均值,為總體例數。2.協方差 在概率論 和統計學中,協方差用於衡量兩個變數的總體誤差。而方差是 協方差的一種特殊情況,即當兩個變數是相同的情況。期望值分別為 e x 與 e y 的兩...

主成分分析法 PCA 答疑

問 為什麼要去均值?1 我認為歸一化的表述並不太準確,按統計的一般說法,叫標準化。資料的標準化過程是減去均值並除以標準差。而歸一化僅包含除以標準差的意思或者類似做法。2 做標準化的原因是 減去均值等同於座標的移動,把原始資料點的重心移到和原點重合,這樣利於很多表達,比如資料的協方差矩陣可以寫成xx ...

主成分分析法(PCA) 降維

主成分分析是一種降維演算法,它能將多個指標轉換為少數幾 個主成分,這些主成分是原始變數的線性組合,且彼此之間 互不相關,其能反映出原始資料的大部分資訊。一般來說,當研究的問題涉及到多變數且變數之間存在很強的相關性時,我們可考慮使用主成分分析的方法來對資料進行簡化。樣本標準化 計算標準化樣本協方差矩陣...