主成分分析(PCA)與Kernel PCA

2021-08-15 19:36:56 字數 632 閱讀 6817

本部落格在之前的文章中曾經介紹過pca在影象壓縮中的應用。其基本思想就是設法提取資料的主成分(或者說是主要資訊),然後摒棄冗餘資訊(或次要資訊),從而達到壓縮的目的。本文將從更深的層次上討論pca的原理,以及kernel化的pca。

首先我們來考察一下,這裡的資訊冗餘是如何體現的。如下圖中的左圖所示,我們有一組二維資料點,從圖上不難發現這組資料的兩個維度之間具有很高的相關性。因為這種相關性,我們就可以認為其實有乙個維度是冗餘的,因為當已知其中乙個維度時,便可以據此大致推斷出另外乙個維度的情況。

為了剔除資訊冗餘,我們設想把這些資料轉換到另外乙個座標系下(或者說是把原座標系進行旋轉),例如像上圖中的右圖所示之情況,當然這裡通過平移設法把原資料的均值變成了零。下圖中的左圖是經過座標系旋轉之後的資料點分布情況。你可以看出,原資料點的兩個維度之間的相關性已經被大大削弱(就這個例子而言幾乎已經被徹底抹消)。

pca主成分分析 PCA主成分分析(中)

矩陣 matrix,很容易讓人們想到那部著名的科幻電影 駭客帝國 事實上,我們又何嘗不是真的生活在matrix中。機器學習處理的大多數資料,都是以 矩陣 形式儲存的。矩陣是向量的組合,而乙個向量代表一組資料,資料又是多維度的。比如每個人的都具有身高 體重 長相 性情等多個維度的資訊資料,而這些多維度...

主成分分析PCA

主要參考這篇文章 個人總結 pca是一種對取樣資料提取主要成分,從而達到降維的目的。相比於上篇文章介紹到的svd降維不同,svd降維是指減少資料的儲存空間,資料的實際資訊沒有缺少。個人感覺pca更類似與svd的去噪的過程。pca求解過程中,涉及到了svd的使用。針對資料集d 假設di 的維度為 w ...

PCA 主成分分析

在進行影象的特徵提取的過程中,提取的特徵維數太多經常會導致特徵匹配時過於複雜,消耗系統資源,不得不採用特徵降維的方法。所謂特徵降維,即採用乙個低緯度的特徵來表示高緯度。將高緯度的特徵經過某個函式對映至低緯度作為新的特徵。pca和lda區別 pca是從特徵的角度協方差角度 求出協方差矩陣的特徵值和特徵...