機器學習筆記 線性判別分析(中)

2021-07-05 14:17:18 字數 2096 閱讀 7062

之前簡要地介紹了一下線性判別函式的的基本性質,接下來我們進行更加詳細的討論。

文中大部分公式和圖表來自 mlpp 和  prml

我們將樣本的分布用多元正態分佈來近似,為了更加了解這個表示式的含義,我們對協方差矩陣做特徵值分解,即σ = uλut   

然後將協方差矩陣的逆用同樣方法分解,即 

代入多元正態分佈的模型中,能夠得到 

這個公式應該很熟悉了,當等式右邊取乙個常數時就是橢圓的表達形式。以相同的等高線定義的距離的叫做馬氏距離(mahalanobis distance)。可以看出,我們熟悉的歐式距離就是馬氏距離的一種特殊的形式。

我個人的理解是,馬氏距離相當於通過樣本之間的協方差對歐式距離做了乙個變換,使得距離被「歸一化」能夠更加準確地反映樣本之間的差異關係,否則可能因為量綱問題導致結果的不準確。以上圖為例,假設我們要**薪水和身高的關係,x1代表薪水,x2代表身高。很顯然等高線在x1方向會「狹長」很多。如果用歐式距離的話,(5010,180)和(5000,190)對(5000,180)是等距離的,但這個顯然不符合邏輯。而用馬氏距離就能夠解決這個問題。

樣本類均值的極大似黃色別墅然估計是樣本的平均向量,而協方差矩陣的極大似然估計是樣本的協方差矩陣。

這個公式的推導要用到trace trick, 在此不做詳述。值得注意的是,這個極大似然估計是有偏的,通常用一種無偏估計來代替,即n分之一分母變成n-1。

那麼用高斯分布來近似密度函式的意義是什麼呢?原因在於高斯分布是滿足最大熵條件的。定義乙個連續分布的資訊熵(也叫微分熵)如下: 

學過物理的同學都知道,熵是一326電影網種無序的程度的度量。將這個概念模擬過來,對於隨機變數來說,資訊熵就代表著不確定性。當乙個隨機變數很確定取到某一特定的值時,它的資訊熵會很低。反之,當它取值很分散時,資訊熵會很高。

現在假設我們已知乙個隨機變數的均值和方差,希望求得在最大熵條件下的密度函式。這個問題可以轉化成優化問題,其中限制條件為: 

運用拉格朗日乘子法,我們可以得出,高斯分布的資訊熵最大。

換句話說,雖然擁有相同均值和方差的性喜劇分布有很多個,但高斯分布帶來了最少的附加條件,包含的資訊量最大,因此也更加能夠準確地概括所有的情況。這也是我們在不知道分布型別的情況下,選擇正態分佈的原因。

接下來我們具體分析一下lda的演算法。

在判別函式的公式中,令

考慮2個類別的情況,分為正類的概率可以表示為

將公式變形:

定義:

最後我326影視們可以得到:

這個公式可以很清楚地看出lda和邏輯回歸的緊密關係。對於lda來說,判別的依據就是:將x減去x0後,將其投影到線段w上,然後觀測大小。下圖為協方差矩陣為單位陣時的圖示。

另外,從公式可以看出先驗概率的影響。當類1的先驗概率增加時,x0向類0的方向移動,那麼x-x0在類1方向上投影增加,也就以更大的概率取到類1。

機器學習 線性判別分析

在前面的博文中,我們介紹了一種經典的用於線性分類的方法 感知機。這篇博文中,我們介紹另外一種用於線性分類的方法 線性判別分析。其主要思想就是找到一條直線,把所有的樣本投影到該直線上,使得同型別的樣本盡可能近,非同型別的樣本盡可能遠。對於資料集 d 而言,定義 mathbf t mathbf y 1,...

線性判別分析 線性判別分析總覽

線性判別分析總覽 linea r discriminant analysis,lda 用於資料預處理中的降維 分類任務,其目標是找到能夠最大化類間區分度的座標軸成分。用幾個詞概括lda的特徵,即降維 分類。假設一批患者使用同一種腫瘤藥,一些人效果良好 response 而另一些人無明顯療效 not ...

機器學習之線性判別分析(LDA)

根據公式可以計算出sw為 求其特徵值和特徵向量 value,vector np.linalg.eig sw.i sb value 1.5639568e 17,8.0000000e 00 vector 0.97421693,0.22561331 0.92309826,0.38456417 這裡選擇特徵...