pca降維的基本思想 你還知道哪些降維方法?

2021-10-12 20:24:40 字數 1537 閱讀 9191

當然pca是眾所周知的降維方法,svd也是一種,除此之外,還有如lda、lle以及le。

(1) pca

pca也就是主成份分析,principal component analysis(pca)是現如今最流行的無監督線性降維方法之一了,其主要思想是資料經過某種投影,或者說乘以乙個矩陣之後,得到的新的矩陣在所投影的維度上資料的方差最大,以此使用較少的資料維度,同時保留住較多的原資料點的特性。pca的目標主要如下:

pca追求的是在降維之後能夠最大化保持資料的內在資訊,並通過衡量在投影方向上的資料方差的大小來衡量該方向的重要性。但是這樣投影以後對資料 的區分作用並不大,反而可能使得資料點揉雜在一起無法區分。這也是pca存在的最大乙個問題,這導致使用pca在很多情況下的分類效果並不好。具體可以看下圖所示,若使用pca將資料點投影至一維空間上時,pca會選擇2軸,這使得原本很容易區分的兩簇點被揉雜在一起變得無法區分;而這時若選擇1軸將會得 到很好的區分結果。而下面所說的lda就將資料對映到軸1上的。

資料投影圖,注:來自網路

(2) lda

linear discriminant analysis(也有叫做fisher linear discriminant)是一種有監督的(supervised)線性降維演算法。與pca保持資料資訊不同,lda是為了使得降維後的資料點盡可能地容易被區分,如上圖投影導軸1上,這裡的公式推導就不說明了,詳細了解的可以參考這裡。

(3) lle

上面說到了線性降維方法,當然還有非線性降維方法,這裡介紹下lle,也就是區域性線性嵌入,它能夠使降維後的資料較好地保持原有流形結構 。lle可以說是流形學習方法最經典的工作之一。很多後續的流形學習、降維方法都與lle有密切聯絡。下圖給了乙個典型的例子,看到降維後資料還保持了流形的結構。

(4) le

laplacian eigenmaps 是用區域性的角度去構建資料之間的關係。具體來講,拉普拉斯特徵對映是一種基於圖的降維演算法,它希望相互間有關係的點(在圖中相連的點)在降維後的空間中盡可能的靠近,從而在降維後仍能保持原有的資料結構。 如果兩個資料例項i和j很相似,那麼i和j在降維後目標子空間中應該盡量接近。laplacian eigenmaps可以反映出資料內在的流形結構。

拉普拉斯特徵對映通過構建鄰接矩陣為w的圖來重構資料流形的區域性結構特徵。其主要思想是,如果兩個資料例項i和j很相似,那麼i和j在降維後目標子空間中應該盡量接近。相關公式推導看這裡。

超愛學習:機器學習-lda(線性判別降維演算法)

pca降維的基本思想 PCA降維以及維數的確定

概述 pca principal components analysis 即主成分分析技術,又稱為主分量分析,旨在利用降維的思想,把多個指標轉換為少數的幾個綜合指標。主成分分析是一種簡化資料集的技術,它是乙個線性變換。這個線性變化把資料變換到乙個新的座標系統中,使得任何資料投影的第一大方差在第乙個座...

pca降維的基本思想 大資料培訓 PCA降維

pca principal component analysis,主成分分析 在高維向量空間中,隨著維度的增加,資料呈現出越來越稀疏的分布特點,增加後續演算法的複雜度,而很多時候雖然資料維度較高,但是很多維度之間存在相關性,他們表達的資訊有重疊。pca的思想是將n維特徵對映到k維上 k這k維特徵稱為...

PCA降維的例子

import numpy as np import matplotlib.pyplot as plt 載入資料 data np.genfromtxt data.csv delimiter x data data 0 y data data 1 plt.scatter x data,y data pl...