pca主成分分析 PCA主成分分析(中)

2021-10-12 06:27:06 字數 2240 閱讀 3717

矩陣——matrix,很容易讓人們想到那部著名的科幻電影——《駭客帝國》。事實上,我們又何嘗不是真的生活在matrix中。機器學習處理的大多數資料,都是以「矩陣」形式儲存的。矩陣是向量的組合,而乙個向量代表一組資料,資料又是多維度的。比如每個人的都具有身高、體重、長相、性情等多個維度的資訊資料,而這些多維度資訊資料就構成了乙個人的資訊向量。多個人的資訊組合在一起,構成了乙個資訊矩陣。我們也把它稱為樣本。

然而事實中我們遇到的資訊維度往往是非常龐大的,所以就需要摒棄次要資訊,保留主要資訊。

那麼我們如何根據現有樣本資料,決定該保留身高、體重、長相、性情中的哪些特徵資訊呢?

其中身高和體重是關聯比較大的,而長相、性情兩方面特徵與其他特徵幾乎無關聯。

從直覺上來講,資料之間關聯的程度越大,越容易「牽一髮而動全身」,這種統一的「聯動」能夠,從另乙個角度,用較少的資訊說明較重要的問題。

所謂降維,就是把這些「聯動」的高維資訊盡量壓縮在乙個低維資訊內,我們叫它「主成分」。而協方差矩陣,代表了多維資訊之間相互關聯程度。我們從資訊之間的關聯程度出發,壓縮關聯程度高的資訊並盡量保持原特徵(去關聯),摒棄不相關的資訊(去冗餘)。舉個極端的例子,我們製作出這樣一組資料:身高和體重存在簡單的線性關係(正比關係),而相貌不受身高、體重的任何影響。如下圖所示

那麼現在,我們計算取得上述資訊矩陣a的其協方差矩陣c,如下圖所示

不出意料,體重和相貌、身高和相貌之間的協方差值為0。再根據這個這個協方差矩陣c分解特徵值,得出以下兩個矩陣,乙個為包含特徵值的對角矩陣d,乙個為特徵值對應的特徵向量所形成的矩陣x

協方差矩陣的特徵值所構成的對角矩陣d:

所對應的特徵向量所組成的特徵矩陣x:

從上面兩張圖可以看出,特徵值從大到小的順序為:

我們看出特徵值類似於一種「能量」,能量越大的特徵值,對矩陣的「貢獻」相對越大。特徵值為0或幾乎為0的那部分乘積項,可以被忽略掉。

在此我們只保留最大的特徵值所對應的特徵向量y,這個向量y作為壓縮資料的方向

通過向量y,用以下方式將原來的3維資料壓縮為1維資料

p就是我們壓縮後的資訊,它對映乙個唯一的主成分p1

下圖顯示了壓縮前後樣本資料和主成分的變化關係

l h代表身高資料

l w代表體重資料

l a代表長相資料

lp1就是壓縮後的主成分上的投影資料

從圖中可以看出:

1.壓縮的後主成分p1和幾乎保留了身高h的變化規律,

2.體重w與h為正比關係。故此,w,h貢獻給了主成分p1,

3.長相a作為冗餘資料被過濾掉。

主成分分析PCA

主要參考這篇文章 個人總結 pca是一種對取樣資料提取主要成分,從而達到降維的目的。相比於上篇文章介紹到的svd降維不同,svd降維是指減少資料的儲存空間,資料的實際資訊沒有缺少。個人感覺pca更類似與svd的去噪的過程。pca求解過程中,涉及到了svd的使用。針對資料集d 假設di 的維度為 w ...

PCA 主成分分析

在進行影象的特徵提取的過程中,提取的特徵維數太多經常會導致特徵匹配時過於複雜,消耗系統資源,不得不採用特徵降維的方法。所謂特徵降維,即採用乙個低緯度的特徵來表示高緯度。將高緯度的特徵經過某個函式對映至低緯度作為新的特徵。pca和lda區別 pca是從特徵的角度協方差角度 求出協方差矩陣的特徵值和特徵...

主成分分析PCA

我們所說的向量其實是向量座標和向量空間的基構成的線性組合。要準確的描述向量,首先需要確定向量空間的一組基,然後 在通常的二維座標系中,我們選中基為 1 0 t 和 0,1 t 那麼對於向量 3 2 其實它是3 1,0 t 2 0,1 t 通常基為列向量,在進行座標變換時,通常將基作為行向量,與原空間...