主成分分析（學習筆記）

主成分分析：principal component analysis（pca）由卡爾皮爾遜於2023年提出，是一種分析，簡化資料的技術，主要用於降低資料的維數，並且在這個過程中，

保持資料集中的對方差貢獻最大的特徵。

具體操作：首先對資料集的協方差矩陣進行特徵分解，得到資料集的主成分（特徵向量）和相對應的權值（特徵值）。我們要在降低資料維數的過程中，使資料集的資訊丟失盡可能的小，這等價於在原資料集中除掉最小的特徵值所對應的成分，從而對方差的影響盡可能的小。

接下來，閒言少敘，直接上簡明的數學過程：

假設我們有乙個資料集：x1, x2, ………xk, 每乙個樣本為n維的列向量（a,b,c,d,....,n），每一行（維度）都代表了乙個特徵。

現在利用pca的方法使其降低到m個維度。

1. 去中心化

即資料集的每乙個樣本都減去樣本均值，這樣做之後資料每乙個維度的均值都變為了0。

2. 計算去中心化後的資料集的協方差矩陣

3. 計算矩陣c的特徵值以及特徵向量

其中s為對角線矩陣，對角線上所對應的元素為特徵值；v矩陣每一列為對應特徵值的特徵向量。

注意！！！

因為c是對稱矩陣，所以得到的不同的特徵值所對應的特徵向量都是相互正交的。

4. 挑選主導的特徵值，完成資料降維

從n個特徵值中挑選最大的m個，將對應的特徵向量組成矩陣m（n×m維），有

其中原資料集a為n×k矩陣，得到的降低維度後的新資料集a』為m×k矩陣。

總結

從我個人理解來看，pca的本質就是通過計算特徵值來去除多維資料內部相關性的過程。

在實際當中我們面對的資料可以達到成千上萬維，有些資料相關性很高，直接處理他們會產生大量的重複性計算。首先計算協方差，了解資料不同特徵之間的相關性；再通過計算協方差矩陣的特徵值並選取m

1. 2. （一篇關於特徵值分解的部落格）

主成分分析筆記

主成分分析不可用於綜合評價主成分分析可用於聚類主成分分析可用於回歸變數的降維主成分的解釋在主成分有意義的情況下當普通多元線性回歸存在多重共線性問題時當研究的問題涉及到多變數且變數之間存在很強的相關性時一題目有n nn個樣本，p pp個指標，則可構建大小為n p n pn p的樣本矩...

PCA主成分分析學習筆記

dl書上這一節公式很多，相關的符號有點不習慣，借鑑相關部落格主要是協方差計算和pca具體原理和python實現部分的講解希望研究例項能更好幫助大家理解公式和計算過程的具體意義基礎知識回顧首先是會看到一些熟悉的公式均值方差以下假設我們有二維資料借用網上常用的資料好驗證結果正確性第一步...

機器學習筆記主成分分析

在介紹因子分析時，我們把資料 x rn 建模在 k 維子空間上，k 本文介紹主成分分析方法，即 pca，嘗試找出資料依賴的子空間。但 pca 會做得更直接，只需要用到向量計算，不需要使用 em。設有 m 種不同汽車的屬性資料如最大速度轉彎半徑等，其中 x i rn n舉乙個自然點的例子，有無線電...

主成分分析（學習筆記）

主成分分析筆記

PCA主成分分析學習筆記

機器學習筆記 主成分分析

相關推薦

機器學習筆記主成分分析