LDA 線性判別分析

定義：

1. lda 線性判別式分析（linear discriminant analysis），也稱為fisher線性判別（fisher linear discriminant，fld）。

基本思想：

將高維的模式樣本投影到最佳鑑別向量空間，以達到抽取分類資訊和壓縮特徵空間維數的效果，投影後保證模式樣本在新的子空間有最大的類間距離和最小的類內距離，即模式在該空間中有最佳的可分離性。lda乙個例子如下：

可以看到兩個類別，乙個綠色類別，乙個紅色類別。左圖是兩個類別的原始資料，現在要求將資料從二維降維到一維。直接投影到x1軸或者x2軸，不同類別之間會有重複，導致分類效果下降。右圖對映到的直線就是用lda方法計算得到的，可以看到，紅色類別和綠色類別在對映之後之間的距離是最大的，而且每個類別內部點的離散程度是最小的（聚集程度是最大的）。

lda計算過程（兩個類別）

現在要找到乙個向量w，將資料x投影到w上去之後，得到新的資料y。

第一，為了實現投影後的兩個類別的距離較遠，用對映後兩個類別的均值差的絕對值來度量。

第二，為了實現投影後，每個類內部資料點比較聚集，用投影後每個類別的方差來度量。

類別i的均值：

投影後均值差的絕對值：

目標優化函式為：

優化目標j(w)改寫為

假設資料是n維特徵，m個資料，分類個數為2。那麼sw實際上是每個類別的協方差矩陣之和，每個類別的協方差矩陣都是n*n的，因此sw是n*n的，m1-m2是n*1的。計算得到的w是n*1的，即w將維特徵對映為1維。這裡不用糾結與sw的協方差矩陣形式，實際上這是拆拆開來w和w_t後的結果，實際上w*sw*w_t後，仍舊是乙個數值，即表示兩個類的投影後方差之和。

lda計算過程（多個類別）

對於s_w，就是「兩個類別的協方差矩陣之和」變成了「多個類別的協方差矩陣之和」：

class1的點都是圓圈，class2的點都是十字。圖中有兩條直線，斜率在1左右的這條直線是pca選擇的對映直線，斜率在 -1左右的這條直線是lda選擇的對映直線。其餘不在這兩條直線上的點是原始資料點。可以看到由於lda考慮了「類別」這個資訊（即標註），對映後，可以很好的將class1和class2的點區分開

LDA 線性判別分析

LDA 線性判別分析

線性判別分析LDA

LDA 線性判別分析

相關推薦