筆記 PCA降維

2021-09-02 21:41:14 字數 672 閱讀 6258

作為乙個非監督學習的降維方法,pca(principal components analysis)顧名思義,就是找出資料裡最主要的方面,用資料裡最主要的方面來代替原始資料。具體的,假如我們的資料集是n維的,共有m個資料(x1,x2,…,xm)。我們希望將這m個資料的維度從n維降到k維,希望這m個k維的資料集盡可能的代表原始資料集。但是,資料從 n維降到k維肯定會有損失,因此,pca就是要是這個損失降到最小。

輸入:n維樣本集x = (x1,x2,…,xm),要降維到的維數k

輸出:降維後的樣本集y

1.對所有的樣本進行中心化

2.計算樣本的協方差矩陣

3.求出協方差矩陣的特徵值及對應的特徵向量

4.將特徵向量按對應特徵值大小從上到下按行排列成矩陣,取前k行組成矩陣p

5.y = px即為降維到k維後的資料

1,僅僅需要以方差衡量資訊量,不受資料集以外的因素影響。 

2,各主成分之間正交,可消除原始資料成分間的相互影響的因素。

3,計算方法簡單,主要運算是特徵值分解,易於實現。

pca演算法的主要缺點有:

1,主成分各個特徵維度的含義具有一定的模糊性,不如原始樣本特徵的解釋性強。

2,方差小的非主成分也可能含有對樣本差異的重要資訊,因降維丟棄可能對後續資料處理有影響。

資料降維PCA 學習筆記

pca降維。基於方差降維,屬於無監督學習。無需資料標籤。使方差 資料離散量 最大,變換後資料分開。更易於分類。可以對隱私資料pca,資料加密。基變換投影 內積 正交的基,兩個向量垂直 內積為0,線性無關 先將基化成各維度下的單位向量。一般把資料寫成列向量的形式,新的基寫成矩陣的形式。基 向量 基要在...

PCA降維演算法

文章由兩部分構成,第一部分主要講解pca演算法的步驟,第二部分講解pca演算法的原理。那麼首先進入第一部分 pca演算法的步驟 樣本矩陣x的構成 假設待觀察變數有m個,其實相當於乙個資料在m維各維度上的座標,我們的目標是在保證比較資料之間相似性不失真的前提下,將描述資料的維度盡量減小至l維 l樣本矩...

PCA降維原理

在之前的介紹中,一幅影象只能表示乙個物件。那麼對於w x h的灰度影象,只能表示為w x h位的向量,那麼乙個有100 100的影象就需要10000維的向量空間。對於一幅人臉而言,是否所有維的資料都是有用的呢?在矩陣論當中我們知道,矩陣可以近似的表示為乙個特徵值與特徵向量的乘積。根據這個原理,如果我...