《百面機器學習》讀書筆記(四) 降維

2021-10-18 23:25:31 字數 1981 閱讀 1346

全部筆記的彙總貼:《百面機器學習》-讀書筆記彙總

在機器學習中,資料通常需要被表示成向量形式以輸入模型進行訓練。但眾所周知,對向維向量進行處理和分析時,會極大地消耗系統資源,甚至產生維度災難。因此,進行降維,即用乙個低維度的向量表示原始高維度的特徵就顯得尤為重要。常見的降維方法有主成分分析、線性判別分析、等距對映、區域性線性嵌入、拉普拉斯特徵對映、區域性保留投影等。

在機器學習領域中,我們對原始資料進行特徵提取,有時會得到比較高維的特徵向量。在這些向量所處的高維空間中,包含很多的冗餘和雜訊。我們希望通過降維的方式來尋找資料內部的特性,從而提公升特徵表達能力,降低訓練複雜

度。主成分分析(principal components analysis,pca)作為降維中最經典的方法,至今已有100多年的歷史,它屬於一種線性、非監督、全域性的降維演算法,是面試中經常被問到的問題。

pca旨在找到資料中的主成分,並利用這些主成分表徵原始資料,從而達到降維的目的。

我們要找到最大的方差也就是協方差矩陣最大的特徵值,最佳投影方向就是最大特徵值所對應的特徵向量。次佳投影方向位於最佳投影方向的正交空間中,是第二大特徵值對應的特徵向量,以此類推。至此,我們得到以下幾種pca的求解方法。

對樣本資料進行中心化處理。

求樣本協方差矩陣。

對協方差矩陣進行特徵值分解,將特徵值從大到小排列。

取特徵值前d

dd大對應的特徵向量ω1,

ω2,.

..,ω

dω_1,ω_2,...,ω_d

ω1​,ω2

​,..

.,ωd

​,通過以下對映將n

nn維樣本對映到d

dd維。

其實總結一下,就是角度和上乙個方法不同。

在高維空間中,我們實際上是要找到乙個d

dd維超平面,使得資料點到這個超平面的距離平方和最小。以d=1

d=1d=

1為例,超平面退化為直線,即把樣本點投影到最佳直線,最小化的就是所有點到直線的距離平方之和。

線性判別分析(linear discriminant analysis,lda)是一種有監督學習演算法,同時經常被用來對資料進行降維。它是ronald fisher在2023年發明的,有些資料上也稱之為fisher lda(fisher』s linear discriminant analysis)。lda是目前機器學習、資料探勘領域中經典且熱門的一種演算法。

相比於pca,lda可以作為一種有監督的降維演算法。在pca中,演算法沒有考慮資料的標籤(類別),只是把原資料對映到一些方差比較大的方向上而已。

最大化類間距離、最小化類內距離是lda的基本思想,fisher lda相比pca更善於對有類別資訊的資料進行降維處理,但它對資料的分布做了一些很強的假設,例如,每個類資料都是高斯分布、各個類的協方差相等。儘管這些假設在實際中並不一定完全滿足,但lda已被證明是非常有效的一種降維方法。主要是因為線性模型對於雜訊的魯棒性比較好,但由於模型簡單,表達能力有一定侷限性,我們可以通過引入核函式擴充套件lda方法以處理分布較為複雜的資料。

同樣作為線性降維方法,pca是有監督的降維演算法,而lda是無監督的降維演算法。雖然在原理或應用方面二者有一定的區別,但是從這兩種方法的數學本質出發,我們不難發現二者有很多共通的特性。

從pca和lda兩種降維方法的求解過程來看,它們確實有著很大的相似性,但對應的原理卻有所區別。

首先從目標出發,pca選擇的是投影後資料方差最大的方向。由於它是無監督的,因此pca假設方差越大,資訊量越多,用主成分來表示原始資料可以去除冗餘的維度,達到降維。而lda選擇的是投影後類內方差小、類間方差大的方向。其用到了類別標籤資訊,為了找到資料中具有判別性的維度,使得原始資料在這些方向上投影後,不同類別盡可能區分開。

從應用的角度,我們可以掌握乙個基本的原則——對無監督的任務使用pca進行降維,對有監督的則應用lda。

下一章傳送門:《百面機器學習》讀書筆記(五)-非監督學習

《百面機器學習》讀書筆記(一) 特徵工程

全部筆記的彙總貼 百面機器學習 讀書筆記彙總 特徵工程,顧名思義,是對原始資料進行一系列工程處理,將其提煉為特 徵,作為輸入供演算法和模型使用。從本質上來講,特徵工程是乙個表示和展現資料的過程。在實際工作中,特徵工程旨在去除原始資料中的雜質和冗餘,設計更高效的特徵以刻畫求解的問題與 模型之間的關係。...

深度之眼 百面機器學習 PCA降維

除了這些輸入引數外,有幾個pca類的成員值得關注。fit 可以說是scikit learn中通用的方法,每個需要訓練的演算法都會有fit 方法,它其實就是演算法中的 訓練 這一步驟。因為pca是無監督學習演算法,此處y自然等於none。fit x 表示用資料x來訓練pca模型。函式返回值 呼叫fit...

《百面機器學習》拾貝 第四章 降維

宇宙,是時間和空間的總和。時間是一維的,空間。maybe 9 or 10維?降維,即用乙個低維度的向量表示原始高維度的特徵。常見的降維方法有主成分分析 線性判別分析 等距對映 區域性線性嵌入 拉普拉斯特徵對映 區域性保留投影等。01 pca最大方差理論 在機器學習領域中,我們對原始資料進行特徵提取,...