初探PCA原理與推導

2021-08-16 21:33:42 字數 398 閱讀 3496

pca原理:將n維資料對映到由k維相互正交的向量確定的空間上。

實現流程:

1.計算原特徵資料的協方差矩陣,並計算協方差矩陣的特徵值。

2.按照大小對所計算的特徵值進行排序,選取前k大的特徵值所對應的特徵向量,將其轉化為單位向量。

3.對所有資料都減去其對應的平均值,做中心化。這相當於得到期望值為0,標準差為1的標準高斯分布(個人認為中心化的目的是為了計算方差方便,和讓樣本平移到座標原點讓模型更易理解)。

4.將資料投影到k維空間:讓中心化後的樣本矩陣與特徵向量矩陣相乘

pca的實現流程結束,得到k維的新樣本資料。

基於最大方差原理推導pca,首先理清思路:

1.目標函式為方差最大化

2.方差最大化時候的特徵向量是

PCA推導與直觀理解

資料降維 為了說明什麼是資料的主成分,先從資料降維說起。資料降維是怎麼回事兒?假設三維空間中有一系列點,這些點分布在乙個過原點的斜面上,如果你用自然座標系x,y,z這三個軸來表示這組資料的話,需要使用三個維度,而事實上,這些點的分布僅僅是在乙個二維的平面上,那麼,問題出在 如果你再仔細想想,能不能把...

PCA 的思路和推導

pca是一種較為常用的降維技術,pca的思想是將n維特徵對映到k維上,這k維是全新的正交特徵。這k維特徵稱為主元,是重新構造出來的k維特徵。在 pca中,資料從原來的座標系轉換到新的座標系下,新的座標系的選擇與資料本身是密切相關的。其中,第乙個新座標軸選擇的是原始資料中方差最大的方向,第二個新座標軸...

Paxos演算法原理與推導

一 問題產生的背景 在分布式系統中,必然會存在服務宕機 或網路異常 如網路延遲 訊息亂序 訊息丟失等 等狀況。paxos基於容錯的分布式環境,實現在集群內部對某個值達成最終一致的分布式演算法。注1 服務不存在拜占庭將軍問題 不存在叛徒 也即集群內的機器可以隨時發生宕機重啟,但不能做出有違約定的行為。...