機器學習筆記線性判別分析（中）

之前簡要地介紹了一下線性判別函式的的基本性質，接下來我們進行更加詳細的討論。

文中大部分公式和圖表來自 mlpp 和 prml

我們將樣本的分布用多元正態分佈來近似，為了更加了解這個表示式的含義，我們對協方差矩陣做特徵值分解，即σ = uλut

然後將協方差矩陣的逆用同樣方法分解，即

代入多元正態分佈的模型中，能夠得到

這個公式應該很熟悉了，當等式右邊取乙個常數時就是橢圓的表達形式。以相同的等高線定義的距離的叫做馬氏距離（mahalanobis distance）。可以看出，我們熟悉的歐式距離就是馬氏距離的一種特殊的形式。

我個人的理解是，馬氏距離相當於通過樣本之間的協方差對歐式距離做了乙個變換，使得距離被「歸一化」能夠更加準確地反映樣本之間的差異關係，否則可能因為量綱問題導致結果的不準確。以上圖為例，假設我們要**薪水和身高的關係，x1代表薪水，x2代表身高。很顯然等高線在x1方向會「狹長」很多。如果用歐式距離的話，(5010,180)和（5000,190)對(5000,180)是等距離的，但這個顯然不符合邏輯。而用馬氏距離就能夠解決這個問題。

樣本類均值的極大似黃色別墅然估計是樣本的平均向量，而協方差矩陣的極大似然估計是樣本的協方差矩陣。

這個公式的推導要用到trace trick, 在此不做詳述。值得注意的是，這個極大似然估計是有偏的，通常用一種無偏估計來代替，即n分之一分母變成n-1。

那麼用高斯分布來近似密度函式的意義是什麼呢？原因在於高斯分布是滿足最大熵條件的。定義乙個連續分布的資訊熵（也叫微分熵）如下：

學過物理的同學都知道，熵是一326電影網種無序的程度的度量。將這個概念模擬過來，對於隨機變數來說，資訊熵就代表著不確定性。當乙個隨機變數很確定取到某一特定的值時，它的資訊熵會很低。反之，當它取值很分散時，資訊熵會很高。

現在假設我們已知乙個隨機變數的均值和方差，希望求得在最大熵條件下的密度函式。這個問題可以轉化成優化問題，其中限制條件為：

運用拉格朗日乘子法，我們可以得出，高斯分布的資訊熵最大。

換句話說，雖然擁有相同均值和方差的性喜劇分布有很多個，但高斯分布帶來了最少的附加條件，包含的資訊量最大，因此也更加能夠準確地概括所有的情況。這也是我們在不知道分布型別的情況下，選擇正態分佈的原因。

接下來我們具體分析一下lda的演算法。

在判別函式的公式中，令

考慮2個類別的情況，分為正類的概率可以表示為

將公式變形：

定義：

最後我326影視們可以得到：

這個公式可以很清楚地看出lda和邏輯回歸的緊密關係。對於lda來說，判別的依據就是：將x減去x0後，將其投影到線段w上，然後觀測大小。下圖為協方差矩陣為單位陣時的圖示。

另外，從公式可以看出先驗概率的影響。當類1的先驗概率增加時，x0向類0的方向移動，那麼x-x0在類1方向上投影增加，也就以更大的概率取到類1。

機器學習筆記線性判別分析（中）

機器學習線性判別分析

線性判別分析線性判別分析總覽

機器學習之線性判別分析（LDA）

機器學習筆記 線性判別分析（中）

機器學習 線性判別分析

線性判別分析 線性判別分析總覽

機器學習之線性判別分析（LDA）

相關推薦

機器學習筆記線性判別分析（中）

機器學習線性判別分析

線性判別分析線性判別分析總覽