主成分分析法 PCA 答疑

2022-08-15 16:39:09 字數 474 閱讀 9419

問:為什麼要去均值?

1、我認為歸一化的表述並不太準確,按統計的一般說法,叫標準化。資料的標準化過程是減去均值並除以標準差。而歸一化僅包含除以標準差的意思或者類似做法。

2、做標準化的原因是:減去均值等同於座標的移動,把原始資料點的重心移到和原點重合,這樣利於很多表達,比如資料的協方差矩陣可以寫成xx',若沒有減去均值,則xx『後面還要減去一些東西(還不明白可以參考多元統計分析的書)。除以標準差是為了統一並消除量綱。乙個矩陣中有多個向量,有些可能表示了長度,有些表示了重量,除以標準差,才能讓它們僅以「數」的概念一起比較運算。

3、標準化的做法。舉例,若你的矩陣a是5行3列,第一列表示長度,第二列表示時間,第三列表示質量,那麼矩陣a等同於對這個三個量進行了5次測量,所以5*3.這樣3個分量有各自的均值和標準差,對這個矩陣中15個元素均做標準化只要減去長度、時間、質量各自的均值並除以標準差即可。

4、影象不需要除以標準差,因為他們都是畫素值,同量綱同尺度。只減均值就行。

主成分分析法(PCA)

一 數學基礎 1.方差 用來計算每乙個變數 觀察值 與總體均數之間的差異。總體方差計算公式 為總體方差,為變數,為總體均值,為總體例數。2.協方差 在概率論 和統計學中,協方差用於衡量兩個變數的總體誤差。而方差是 協方差的一種特殊情況,即當兩個變數是相同的情況。期望值分別為 e x 與 e y 的兩...

主成分分析法(PCA) 降維

主成分分析是一種降維演算法,它能將多個指標轉換為少數幾 個主成分,這些主成分是原始變數的線性組合,且彼此之間 互不相關,其能反映出原始資料的大部分資訊。一般來說,當研究的問題涉及到多變數且變數之間存在很強的相關性時,我們可考慮使用主成分分析的方法來對資料進行簡化。樣本標準化 計算標準化樣本協方差矩陣...

主成分分析法

相關係數 矩陣 相當於消除量綱的表示變數間相關性的乙個矩陣 協方差矩陣 它是沒有消除 量綱的表示變數間相關性的矩陣。對比下它們的等式變換關係 r cov x,y d x d y 1 求相關係數矩陣或者協方差矩陣r 2 計算r的特徵值 3 求特徵根對應的單位特徵向量 4 主成分選取,含 釋及計算 主成...