資料降維PCA 學習筆記

2022-05-13 19:51:42 字數 1735 閱讀 4770

pca降維。基於方差降維,屬於無監督學習。無需資料標籤。

使方差(資料離散量)最大,變換後資料分開。更易於分類。

可以對隱私資料pca,資料加密。

基變換投影->內積

正交的基,兩個向量垂直(內積為0,線性無關)

先將基化成各維度下的單位向量

一般把資料寫成列向量的形式,新的基寫成矩陣的形式。

基×向量(基要在左乘,行表示一組基向量;樣本在右,列對應乙個樣本,m列即m個樣本(n*m))

r個基向量,行向量表示。r維空間內,p1...pr。p是行向量。

m個樣本,m列。n個特徵。

將右面矩陣內每乙個列向量(樣本),對映到r維空間內

原來可能有n個特徵,現在變成了r個特徵。m個樣本:

選擇一組基,要盡可能保留原來資訊,但又更離散(方差大),易於分類。

資料預處理,標準化,使均值為0。

方差:var(a)=1/m*。方差表示乙個特徵的離散程度。

二維的資料點,投影到一維。尋找方差最大的方向。

可以發現,第二個圖中,剛好直線上投影點更離散。

先會對資料中心化,變成均值為0。即類似方差中的μ=0。a^2->a

m個樣本

可以發現,協方差矩陣中剛好包含了所需要考慮的方差與協方差

且二者的位置關係十分巧妙,方差恰好在主對角線上,協方差在對角。

需求可以恰好等價為協方差矩陣對角化。

即,尋找基,使得協方差矩陣對角化。

協方差矩陣同時包含了方差和協方差。

希望方差最大,協方差最小。

最大的特徵值對應的特徵向量,就是方差最大。選前k個最大的,k個單位向量->最好的k個基

這裡,求得最大的特徵值後,可以直接找對應的特徵向量來用,對角化步驟貌似可以省略。

二維,5個樣本

降到一維,選乙個c1

兩個特徵向量,一定是可以把協方差矩陣對角化。

筆記 PCA降維

作為乙個非監督學習的降維方法,pca principal components analysis 顧名思義,就是找出資料裡最主要的方面,用資料裡最主要的方面來代替原始資料。具體的,假如我們的資料集是n維的,共有m個資料 x1,x2,xm 我們希望將這m個資料的維度從n維降到k維,希望這m個k維的資料...

資料降維 PCA

模型原型 class sklearn.decomposition.pca n components none,copy true,whiten false 引數 copy 如果為false,則直接使用原始資料來訓練,結果會覆蓋原始資料所在的陣列 whiten 如果為true,則會將特徵向量除以n s...

PCA 資料降維實戰

資料降維是機器學習領域中非常重要的內容。降維就是指採用某種對映方法,將原高維空間中的資料點對映到低維度的空間中。降維的本質是學習乙個對映函式 f x y,其中x是原始資料點的表達,目前最多使用向量表達形式。y是資料點對映後的低維向量表達,通常y的維度小於x的維度 當然提高維度也是可以的 f可能是顯式...