PCA的個人理解

2021-10-05 04:08:28 字數 1165 閱讀 8986

接觸pca很久很久,pca可以說是每個機器學習愛好者的都會很快接觸到的降維演算法,經過這幾年對pca有了更深入的理解~

pca是什麼?

英文名稱:principal components analysis,顧名思義,用於分析資料中的主要成分,同時捨棄(忽略)不重要的成分,實現資訊的提取和精煉,降低資料的難度。

什麼是主成分?

既然是用於分析資料中的主要成分,那需要先確定什麼樣的成分(資訊)是「主要成分」?從資訊理論的角度來說,資料價值的高低是以資訊量的多少衡量,資訊量的多少以熵的大小評估,熵又等價於資料的混亂程度或者說是資料分布的幅度大小。熵越大,資訊量越大,資料價值越高。這一點很高理解,比如分析人的收入,會使用「是否有鼻子」、「是否嘴巴」這類特徵嗎?明顯不會,因為這些特徵是大家共有的,也就是說,這類特徵的取值是唯一的,資料不存在混亂,資料的熵為0。資料越混亂,資料的價值越大,而資料混亂程度同時正好可以用資料的方差評估,方差是衡量一組資料中各個資料點偏離均值的程度,方差越大,一組資料相互之間越分散,資料越離散,資料價值越大。所以,pca中的主成分就是指資料內部隱含的具有最大方差方向的資料。

理想的主成分?

在實際分析中,我們希望特徵和特徵之間的相關性盡可能低,一方面便於分析資料,另一邊面又可以降低模型學習的難度(模型不需要學習特徵之間的線性關係)。

特徵和特徵之間的相關性如何衡量,常用方法是相似度計算(比如pearson相似度)、協方差、cos余弦相似度等等,很多。但從線性代數(矩陣論)的角度來說,特徵之間是否相關性可以用特徵是否正交來評估。向量正交,說明向量不相關,但是向量不正交,則不一定。所以,尋找理想的多個主成分就是尋找相互之間正交的向量。

主成分怎麼找?

線性代數中有乙個特殊的矩陣,稱為實對稱矩陣,其是半正定的,計算得到的特徵向量之間正好是正交的,而且特徵值表示特徵向量的方向,代表特徵向量的幅度。這一性質和pca的目的不謀而合,而且多個特徵的協方差矩陣正好是實對稱矩陣。因此,可以通過協方差矩陣,得到相關之間正交的主成分。

為什麼是用協方差矩陣?

協方差矩陣包含單個特徵的方差、特徵和特徵之間的相似度(協方差)。

計算協方差矩陣時候為什麼要首先對各個特徵去中心化?

特徵不同,特徵的取值不同,特徵的均值不同,均值代表特徵的平均中心點;通過去中心化,可以讓各個特徵的中心處於同個位置,也就是0這一點。實現特徵中心的對齊。

補充:(1)資料對映,ab=c,代表矩陣b,通過對映關係a,得到c。

pca人臉識別個人理解及步驟

前言 pca,即主成分分析,是一種資料降維的方法,也是一種古老而經典的人臉識別的演算法。理解pca演算法的原理和步驟,對我們的思維啟發還是很有幫助的。雖然說在眾多的人臉識別中,pca是較簡單的,但是要想清楚了解pca人臉識別的詳細步驟和細節還是不容易的,尤其是對初學者而言。下面我詳細介紹一下pca人...

利用 主成分分析(PCA) 降維 個人理解

從線性空間的角度看,在乙個定義了內積的線性空間裡,對乙個n階對稱方陣進行特徵分解,就是產生了該空間的n個標準正交基,然後把矩陣投影到這n個基上。n個特徵向量就是n個標準正交基,而特徵值的模則代表矩陣在每個基上的投影長度。特徵值越大,說明矩陣在對應的特徵向量上的方差越大,功率越大,資訊量越多。經過特徵...

深入理解PCA

了解一些pca的都知道,裡面使用了協方差矩陣的特徵分解.先介紹一些協方差與統計相關性,接著再引入具體的pca方法.方差 在概率論和統計學中,乙個隨機變數的方差描述的是它的離散程度,也就是該變數離其期望值的距離。乙個實隨機變數的方差也稱為它的二階矩或二階中心動差,恰巧也是它的二階累積量。某個變數的反差...