機器學習 線性判別分析LDA和主成分分析PCA

2021-09-22 10:33:22 字數 2066 閱讀 1794

3 主成分分析pca

3.4 pca的演算法流程

3.5 **實現

3.6 例項

3.7 優缺點

4 lda和pca有什麼區別和聯絡?

參考聊到lda,大部分可能都會想到是線性判別分析,甚至在面試的時候,我簡歷上明明寫的是lda主題模型,但面試官其實不太懂,直接就問了線性判別分析。。。所以今天我們就來聊一聊線性判別分析lda以及和其很相近的pca!

當k=2即二分類問題的時候,如下圖所示:

那損失函式如何度量呢?直觀來看,如果是分子=類間方差,分母=類內方差,則這個分數值越大越好!具體的數學表示式為:

於是我們的目標就變成了:求j最大時對應的w,也就是投影的權重!對應是直線的權重!

但直接求好像有點麻煩,我們進行相應的轉換!

現在j變成了上面這樣的形式,下面就可以用乙個結論了!涉及到乙個廣義瑞利商的概念和相關結論:

一旦通過上述方式求出了w,也就知道了我們的最佳投影方向了!從而將資料進行了降維!

那除了做降維,lda還可以幹嗎嗎?還可以用於分類。分類原理為:

乙個常見的lda分類基本思想是:假設各個類別的樣本資料符合高斯分布,這樣利用lda進行投影後,可以利用極大似然估計計算各個類別投影資料的均值和方差,進而得到該類別高斯分布的概率密度函式。當乙個新的樣本到來後,我們可以將它投影,然後將投影後的樣本特徵分別帶入各個類別的高斯分布概率密度函式,計算它屬於這個類別的概率,最大的概率對應的類別即為**類別。

詳情見劉建平老師部落格:

直接呼叫python中sklearn對應的介面即可!

pca全名是principle component analysis,即主成分分析。是一種重要的降維方法。希望將資料從n維降到m維,而讓這m維資料盡可能代表原始資料集,同時希望損失盡可能的小。

下面是一堆二維資料集,希望能降成一維,請問是按照u1的方向還是u2的方向進行投影降維呢?直觀上會覺得u1更好!原因是啥呢?

這部分參考劉建平老師的部落格,看著很多數學式子,但靜下心來看,發現是不難的。

通過上面兩種推導,我們就可以發現,核心是只要求出樣本點的協方差矩陣對應的特徵值和特徵向量就ok了!算出前m個特徵值(貢獻率一般達到85%以上)以及其對應的特徵向量,然後將特徵向量乘以原始的資料x就可以實現降維了!

大致有下面幾步:

中心化處理

計算樣本的協方差矩陣

求矩陣的特徵值和特徵向量

根據方差貢獻率看選幾個主成分

進行主成分的表示式對原始資料進行降維處理,形成了主成分,後續對主成分進行進一步分析!

具體見劉老師部落格:

優點:缺點:

1、聯絡:

2、區別:

機器學習之線性判別分析(LDA)

根據公式可以計算出sw為 求其特徵值和特徵向量 value,vector np.linalg.eig sw.i sb value 1.5639568e 17,8.0000000e 00 vector 0.97421693,0.22561331 0.92309826,0.38456417 這裡選擇特徵...

LDA 線性判別分析

1.lda是什麼 線性判別式分析 linear discriminant analysis 簡稱為lda。也稱為fisher線性判別 fisher linear discriminant,fld 是模式識別的經典演算法,在1996年由belhumeur引入模式識別和人工智慧領域。基本思想是將高維的模...

線性判別分析LDA

首先搞清楚什麼叫判別分析?discriminant analysis就是根據研究物件的各種特徵值判別其型別歸屬問題的一種多變數統計分析方法。根據判別標準不同,可以分為距離判別 fisher判別 bayes判別法等。比如在knn中用的就是距離判別,當然這裡的 距離 又有好幾種 歐氏距離 街區距離 甚至...