降維方法 PCA SVD LDA LLE

2021-09-11 01:39:36 字數 2823 閱讀 9980

1.svd原理與在降維中的應用

2.pca和svd傻傻分不清楚?

3.線性代數中,特徵值與特徵向量在代數和幾何層面的實際意義是什麼?

4.線性判別分析(linear discriminant analysis)(一)

簡而言之,這裡的分析反映出,高維資料普遍分布較為稀疏,這使得由此直接訓練出來的模型將會有很高的風險出現過擬合。因此降維操作並不僅僅從計算量和簡化問題的角度考慮的,降維操作本身對於模型泛化能力的提高也是很有必要的。

1.從直接效果來說,當然是降低資料維度,便於計算和加速訓練;

2.眾所周知「天下沒有免費的午餐」,降維所帶來的問題就是造成資料一定資訊的損失,這會使得系統維護成本上公升,系統效能略微降低;因此建議還是盡可能使用原始資料,當計算量出現問題時再考慮降維;

主成分分析尋找的是對差異性貢獻度最高的前k條軸。

圖示:

步驟:

原理:

奇異值分解(svd)原理與在降維中的應用

這篇部落格非常詳細介紹了svd的推導過程;

這篇也非常直觀易懂

svd求解步驟:(分為u的求解、v的求解和 ∑ 的求解)

奇異值分解的幾何含義是:

對於任何的乙個矩陣,我們都能找到一組座標軸,它是由原來的座標軸通過旋轉和縮放得到的。奇異值就是這組變換後新的座標軸的長度。

(旋轉-伸縮-旋轉)

在svm那一章,對「核技巧」進行了介紹。核技巧屬於一種數學技巧,能夠隱性地將例項對映到非常高維的特徵空間,從而使svm能夠進行非線性分類和回歸。

事實上,同樣的技巧可以應用於pca,使複雜的非線性投影降維成為可能。

直白的說,kpca所做的就是:

step1.將原來不好直接進行pca操作的樣本資料,通過對映函式 φ 先將其對映到無限維空間;

step2.而後用線性pca操作將轉換後的訓練集投影到低維空間;

lle原理推導參考這篇部落格

如果大家熟悉譜聚類和pca的優化,就會發現優化過程幾乎一樣。其實最小化損失函式j(y)對應的y就是m的最小的d個特徵值所對應的d個特徵向量組成的矩陣。

lle是廣泛使用的圖形影象降維方法,它實現簡單,但是對資料的流形分布特徵有嚴格的要求。比如不能是閉合流形,不能是稀疏的資料集,不能是分布不均勻的資料集等等,這限制了它的應用。(限制較大,因此實用性要打大折扣)

原理分析可以參考這篇部落格

lda的思想可以用一句話概括,就是「投影後類內方差最小,類間方差最大」。因此目標函式也是依據這一思路建立的:

(當然這是針對二分類的目標函式,多分類目標函式與之類似)

我們講到要用pca降維,需要找到樣本協方差矩陣的最大的k個特徵向量,然後用這最大的k個特徵向量張成的矩陣來做低維投影降維。

注意,svd也可以得到協方差矩陣最大的k個特徵向量張成的矩陣。

但是svd有個好處:有一些svd的實現演算法可以不求先求出協方差矩陣,也能求出右奇異矩陣vv。也就是說,pca演算法可以不用做特徵分解,而是做svd來完成。這也是為什麼很多任務具包中pca演算法的背後真正的實現是用的svd,而不是我們認為的暴力特徵分解。

另一方面,注意到pca僅僅使用了我們svd的右奇異矩陣,沒有使用左奇異矩陣。而左奇異矩陣可以用於行數的壓縮,右奇異矩陣可以用於列數,也就是pca降維。所以,有了svd就可以得到兩個方向的pca。

lda用於降維,和pca有很多相同,也有很多不同的地方,因此值得好好的比較一下兩者的降維異同點。

相同點:

1)兩者均可以對資料進行降維。

2)兩者在降維時均使用了矩陣特徵分解的思想。

3)兩者都假設資料符合高斯分布。

不同點:

1)lda是有監督的降維方法,而pca是無監督的降維方法

2)lda降維最多降到類別數k-1的維數,而pca沒有這個限制。

3)lda除了可以用於降維,還可以用於分類。

4)lda選擇分類效能最好的投影方向,而pca選擇樣本點投影具有最大方差的方向。

資料降維方法

資料降維基本原理是將樣本點從輸入空間通過線性或非線性變換對映到乙個低維空間,從而獲得乙個關於原資料集緊致的低維表示。資料降維工具箱drtoolbox中眾多演算法,這裡簡單做個分類。因為很多並沒有仔細了解,在此次只對八種方法做分類 主成分分析 principal component analysis,...

常用降維方法

降維方法分為線性核非線性降維,非線性降維又分為基於核函式和基於特徵值的方法。線性降維方法 pca ica lda lfa lpp le的線性表示 基於核函式的非線性降維方法 kpca kica kda 基於特徵值的非線性降維方法 流型學習 isomap lle le lpp ltsa mvu lle...

降維方法總結

對降維效果的評價 比較降維前後學習器的效能 低維可以通過視覺化技術來判斷降維的效果 分類 一 低維嵌入 代表 mds演算法 基本思想 降維的乙個基本思想是,降維前後 保證樣本點的距離相等,即 原始空間中的距離在低維空間得以保持 mds演算法 1 通過距離不變的原理,推導出由高維空間距離矩陣d計算低維...