LDA 線性判別分析

2021-06-09 19:49:55 字數 1233 閱讀 9024

1. lda是什麼

線性判別式分析(linear discriminant analysis),簡稱為lda。也稱為fisher線性判別(fisher linear discriminant,fld),是模式識別的經典演算法,在2023年由belhumeur引入模式識別和人工智慧領域。

基本思想是將高維的模式樣本投影到最佳鑑別向量空間,以達到抽取分類資訊和壓縮特徵空間維數的效果,投影後保證模式樣本在新的子空間有最大的類間距離最小的類內距離,即模式在該空間中有最佳的可分離性。

lda與前面介紹過的pca都是常用的降維技術。pca主要是從特徵的協方差角度,去找到比較好的投影方式lda更多的是考慮了標註即希望投影後不同類別之間資料點的距離更大,同一類別的資料點更緊湊

下面給出乙個例子,說明lda的目標。

可以看到兩個類別,乙個綠色類別,乙個紅色類別。左圖是兩個類別的原始資料,現在要求將資料從二維降維到一維。直接投影到x1軸或者x2軸,不同類別之間會有重複,導致分類效果下降。右圖對映到的直線就是用lda方法計算得到的,可以看到,紅色類別和綠色類別在對映之後之間的距離是最大的,而且每個類別內部點的離散程度是最小的(或者說聚集程度是最大的)。

這裡還有乙個lda的例子:

下圖是乙個lda和pca區別的例子:

類別i投影後的均值(實際上等於mi的投影):

投影後的方差(這裡的y是類別i中資料投影後的資料,即y=w_t * x):

下面通過展開m'和s',定義s_b和s_w:

推導過程忽略了,最後推導結果如下:

對於s_b,以前是「兩個類別的均值之差的絕對值」,現在多個類別了,怎麼計算呢?計算任意兩個類別之間的均值之差的絕對值之和?這樣對於n個類別,需要 c(n,2)次計算,這可能是乙個方法,不過lda使用的方法,計算每個類別的均值與所有類別均值的差異,並且對每個類別的資料量進行加權處理。下式中,m為所有類別的均值,m_i為類別i的均值,n_i為類別i的資料量。

4. lda其他變種

如果原始資料投影後,仍舊不能很好的分開,那麼kernel lda是乙個解決方法。

lda在計算量上與資料的維度有關,2dlda能夠大大減小lda計算量。

5. lda的一些問題

第一,lda最多投影出c-1維特徵,如果需要更多特徵,則要引入其他方法。

第二,lda假設資料服從單峰高斯分布,比如下面的複雜資料結構。

線性判別分析LDA

首先搞清楚什麼叫判別分析?discriminant analysis就是根據研究物件的各種特徵值判別其型別歸屬問題的一種多變數統計分析方法。根據判別標準不同,可以分為距離判別 fisher判別 bayes判別法等。比如在knn中用的就是距離判別,當然這裡的 距離 又有好幾種 歐氏距離 街區距離 甚至...

LDA 線性判別分析

定義 1.lda 線性判別式分析 linear discriminant analysis 也稱為fisher線性判別 fisher linear discriminant,fld 基本思想 將高維的模式樣本投影到最佳鑑別向量空間,以達到抽取分類資訊和壓縮特徵空間維數的效果,投影後保證模式樣本在新的...

LDA 線性判別分析

1.lda是什麼 線性判別式分析 linear discriminant analysis 簡稱為lda。也稱為fisher線性判別 fisher linear discriminant,fld 是模式識別的經典演算法,在1996年由belhumeur引入模式識別和人工智慧領域。基本思想是將高維的模...