《百面機器學習》讀書筆記（四）降維

全部筆記的彙總貼：《百面機器學習》-讀書筆記彙總

在機器學習中，資料通常需要被表示成向量形式以輸入模型進行訓練。但眾所周知，對向維向量進行處理和分析時，會極大地消耗系統資源，甚至產生維度災難。因此，進行降維，即用乙個低維度的向量表示原始高維度的特徵就顯得尤為重要。常見的降維方法有主成分分析、線性判別分析、等距對映、區域性線性嵌入、拉普拉斯特徵對映、區域性保留投影等。

在機器學習領域中，我們對原始資料進行特徵提取，有時會得到比較高維的特徵向量。在這些向量所處的高維空間中，包含很多的冗餘和雜訊。我們希望通過降維的方式來尋找資料內部的特性，從而提公升特徵表達能力，降低訓練複雜

度。主成分分析（principal components analysis，pca）作為降維中最經典的方法，至今已有100多年的歷史，它屬於一種線性、非監督、全域性的降維演算法，是面試中經常被問到的問題。

pca旨在找到資料中的主成分，並利用這些主成分表徵原始資料，從而達到降維的目的。

我們要找到最大的方差也就是協方差矩陣最大的特徵值，最佳投影方向就是最大特徵值所對應的特徵向量。次佳投影方向位於最佳投影方向的正交空間中，是第二大特徵值對應的特徵向量，以此類推。至此，我們得到以下幾種pca的求解方法。

對樣本資料進行中心化處理。

求樣本協方差矩陣。

對協方差矩陣進行特徵值分解，將特徵值從大到小排列。

取特徵值前d

dd大對應的特徵向量ω1,

ω2,.

..,ω

dω_1,ω_2,...,ω_d

ω1,ω2

,..

.,ωd

，通過以下對映將n

nn維樣本對映到d

dd維。

其實總結一下，就是角度和上乙個方法不同。

在高維空間中，我們實際上是要找到乙個d

dd維超平面，使得資料點到這個超平面的距離平方和最小。以d=1

d=1d=

1為例，超平面退化為直線，即把樣本點投影到最佳直線，最小化的就是所有點到直線的距離平方之和。

線性判別分析（linear discriminant analysis，lda）是一種有監督學習演算法，同時經常被用來對資料進行降維。它是ronald fisher在2023年發明的，有些資料上也稱之為fisher lda（fisher』s linear discriminant analysis）。lda是目前機器學習、資料探勘領域中經典且熱門的一種演算法。

相比於pca，lda可以作為一種有監督的降維演算法。在pca中，演算法沒有考慮資料的標籤（類別），只是把原資料對映到一些方差比較大的方向上而已。

最大化類間距離、最小化類內距離是lda的基本思想，fisher lda相比pca更善於對有類別資訊的資料進行降維處理，但它對資料的分布做了一些很強的假設，例如，每個類資料都是高斯分布、各個類的協方差相等。儘管這些假設在實際中並不一定完全滿足，但lda已被證明是非常有效的一種降維方法。主要是因為線性模型對於雜訊的魯棒性比較好，但由於模型簡單，表達能力有一定侷限性，我們可以通過引入核函式擴充套件lda方法以處理分布較為複雜的資料。

同樣作為線性降維方法，pca是有監督的降維演算法，而lda是無監督的降維演算法。雖然在原理或應用方面二者有一定的區別，但是從這兩種方法的數學本質出發，我們不難發現二者有很多共通的特性。

從pca和lda兩種降維方法的求解過程來看，它們確實有著很大的相似性，但對應的原理卻有所區別。

首先從目標出發，pca選擇的是投影後資料方差最大的方向。由於它是無監督的，因此pca假設方差越大，資訊量越多，用主成分來表示原始資料可以去除冗餘的維度，達到降維。而lda選擇的是投影後類內方差小、類間方差大的方向。其用到了類別標籤資訊，為了找到資料中具有判別性的維度，使得原始資料在這些方向上投影後，不同類別盡可能區分開。

從應用的角度，我們可以掌握乙個基本的原則——對無監督的任務使用pca進行降維，對有監督的則應用lda。

下一章傳送門：《百面機器學習》讀書筆記（五）-非監督學習

《百面機器學習》讀書筆記（四）降維

《百面機器學習》讀書筆記（一）特徵工程

深度之眼百面機器學習 PCA降維

《百面機器學習》拾貝第四章降維

《百面機器學習》讀書筆記（四） 降維

《百面機器學習》讀書筆記（一） 特徵工程

深度之眼 百面機器學習 PCA降維

《百面機器學習》拾貝 第四章 降維

相關推薦

《百面機器學習》讀書筆記（四）降維

《百面機器學習》讀書筆記（一）特徵工程

深度之眼百面機器學習 PCA降維

《百面機器學習》拾貝第四章降維