PCA和LDA的對比

pca和lda都是經典的降維演算法。pca是無監督的，也就是訓練樣本不需要標籤；lda是有監督的，也就是訓練樣本需要標籤。pca是去除掉原始資料中冗餘的維度，而lda是尋找乙個維度，使得原始資料在該維度上投影後不同類別的資料盡可能分離開來。

pca是一種正交投影，它的思想是使得原始資料在投影子空間的各個維度的方差最大。假設我們要將n維的資料投影到m維的空間上（m用一句話來概括lda的思想就是，投影後類內方差最小，類間方差最大。如下圖所示有兩種投影方式，左邊的投影後紅色資料和藍色資料還有重疊部分，右邊的投影後紅色資料和藍色資料則剛好被分開。lda的投影即類似右邊的投影方式，投影後使得不同類別的資料盡可能分開，而相同類別的資料則盡可能緊湊地分布。

**於網路

lda的計算步驟：

計算類間散度矩陣\(s_b\)

\[s_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^t

\]其中\(\mu_0\)是第0類樣本的均值，\(\mu_1\)是第1類樣本的均值。

2. 計算類內雜湊矩陣\(s_w\)

\[s_w=\sum_(x-\mu_0)(x-\mu_1)^t+\sum_(x-\mu_1)(x-\mu_1)^t

\]其中\(x_0\)是第0類樣本的集合，\(x_1\)是第1類樣本的集合。

3. 求出最佳投影方向\(w\)，\(w\)即為\(s_w^s_b\)的最大特徵值所對應的特徵向量。

pca和lda都是經典的降維演算法；

pca和lda都假設資料是符合高斯分布的；

pca和lda都利用了矩陣特徵分解的思想。

pca是無監督（訓練樣本無標籤）的，lda是有監督（訓練樣本有標籤）的；

pca是去掉原始資料冗餘的維度，lda是選擇乙個最佳的投影方向，使得投影後相同類別的資料分布緊湊，不同類別的資料盡量相互遠離。

lda最多可以降到k-1維（k是訓練樣本的類別數量，k-1是因為最後一維的均值可以由前面的k-1維的均值表示）；

lda可能會過擬合資料。

reference:

PCA和LDA的對比

PCA和LDA之直觀理解

機器學習 LDA與PCA演算法

PCA和線性判別分析LDA原理總結

PCA和LDA的對比

PCA和LDA之直觀理解

機器學習 LDA與PCA演算法

PCA和線性判別分析LDA原理總結

相關推薦