資料降維PCA 學習筆記

pca降維。基於方差降維，屬於無監督學習。無需資料標籤。

使方差（資料離散量）最大，變換後資料分開。更易於分類。

可以對隱私資料pca，資料加密。

基變換投影->內積

正交的基，兩個向量垂直（內積為0，線性無關）

先將基化成各維度下的單位向量。

一般把資料寫成列向量的形式，新的基寫成矩陣的形式。

基×向量（基要在左乘，行表示一組基向量；樣本在右，列對應乙個樣本，m列即m個樣本（n*m））

r個基向量，行向量表示。r維空間內，p1...pr。p是行向量。

m個樣本，m列。n個特徵。

將右面矩陣內每乙個列向量（樣本），對映到r維空間內

原來可能有n個特徵，現在變成了r個特徵。m個樣本：

選擇一組基，要盡可能保留原來資訊，但又更離散（方差大），易於分類。

資料預處理，標準化，使均值為0。

方差：var(a)=1/m*。方差表示乙個特徵的離散程度。

二維的資料點，投影到一維。尋找方差最大的方向。

可以發現，第二個圖中，剛好直線上投影點更離散。

先會對資料中心化，變成均值為0。即類似方差中的μ=0。a^2->a

m個樣本

可以發現，協方差矩陣中剛好包含了所需要考慮的方差與協方差。

且二者的位置關係十分巧妙，方差恰好在主對角線上，協方差在對角。

需求可以恰好等價為協方差矩陣對角化。

即，尋找基，使得協方差矩陣對角化。

協方差矩陣同時包含了方差和協方差。

希望方差最大，協方差最小。

最大的特徵值對應的特徵向量，就是方差最大。選前k個最大的，k個單位向量->最好的k個基

這裡，求得最大的特徵值後，可以直接找對應的特徵向量來用，對角化步驟貌似可以省略。

二維,5個樣本

降到一維,選乙個c1

兩個特徵向量,一定是可以把協方差矩陣對角化。

筆記 PCA降維

作為乙個非監督學習的降維方法，pca principal components analysis 顧名思義，就是找出資料裡最主要的方面，用資料裡最主要的方面來代替原始資料。具體的，假如我們的資料集是n維的，共有m個資料 x1,x2,xm 我們希望將這m個資料的維度從n維降到k維，希望這m個k維的資料...

資料降維 PCA

模型原型 class sklearn.decomposition.pca n components none,copy true,whiten false 引數 copy 如果為false，則直接使用原始資料來訓練，結果會覆蓋原始資料所在的陣列 whiten 如果為true，則會將特徵向量除以n s...

PCA 資料降維實戰

資料降維是機器學習領域中非常重要的內容。降維就是指採用某種對映方法，將原高維空間中的資料點對映到低維度的空間中。降維的本質是學習乙個對映函式 f x y，其中x是原始資料點的表達，目前最多使用向量表達形式。y是資料點對映後的低維向量表達，通常y的維度小於x的維度當然提高維度也是可以的 f可能是顯式...

資料降維PCA 學習筆記

筆記 PCA降維

資料降維 PCA

PCA 資料降維實戰

相關推薦