資料降維方法總結

經過這幾天面試後，我發現資料降維這一塊在工業界用的很多或者說必不可少，因此，這方面需要重點關注。今天，我將資料降維總結於此，包括他人成果，這裡對他們的內容表示感謝。

主成分分析(pca)和判別分析方法(lda)

關於pca的理解：

1、pca可以理解為高維資料投影到低維，並使得投影誤差最小。是一種無監督將為方法。

2、還可以理解為對座標旋轉和平移(對應著座標變換和去中心化)，從而使得n維空間能在n-1維分析，同時去掉方差小的特徵(方差小，不確定度小，資訊量小)

3、pca的推導

4、pca與svd的聯絡

(從矩陣分解角度理解pca)

5、pca降維的應用

6、pca 的缺點：

（1）pca是線性降維方法，有時候資料之間的非線性關係是很重要的，這時候我們用pca會得到很差的結果。所有接下來我們引入核方法的pca。

（2）主成分分析法只在樣本點服從高斯分布的時候比較有效。

（3）存在不平衡資料的降維可以採用代價敏感pca(cspca)

（4）特徵根的大小決定了我們感興趣資訊的多少。即小特徵根往往代表了雜訊，但實際上，向小一點的特徵根方向投影也有可能包括我們感興趣的資料；

（5）特徵向量的方向是互相正交（orthogonal）的，這種正交性使得pca容易受到outlier的影響

（6）難於解釋結果。例如在建立線性回歸模型（linear regression model）分析因變數（response）和第乙個主成份的關係時，我們得到的回歸係數（coefficiency）不是某乙個自變數（covariate）的貢獻，而是對所有自變數的某個線性組合（linear combination）的貢獻。

（7）原始的pca演算法會把所有的資料一次性的放入記憶體中，這在大資料集的情況下有可能會遇到問題，所以有人提出了增量式的pca，這在sklearn中是有實現

關於lda的理解：

1、判別分析：discriminant analysis就是根據研究物件的各種特徵值判別其型別歸屬問題的一種多變數統計分析方法。

根據判別標準不同，可以分為距離判別、fisher判別、bayes判別法等。比如在knn中用的就是距離判別，當然這裡的「距離」又有好幾種：歐氏距離、街區距離、甚至可以用皮爾森相關係數等。樸素貝葉斯分類用的就是bayes判別法。本文要講的線性判別分析就是用是fisher判別式。

根據判別函式的形式，可以分為線性判別和非線性判別。

2、優化目標是類間距離盡量大，類內距離盡量小，最終使得可區分度大。

3、是一種有監督的降維方法

4、類間距離和類內距離的理解

5、lda推導：從二類到多類

6、lda的應用：主題模型

兩個方法是最主要的線性降維方法，共同點都是以投影的方式，低維表示高維，都是轉化成求特徵向量問題(譜(spectral)方法)

兩者區別可以參考：

圖的左邊是pca，它所作的只是將整組資料整體對映到最方便表示這組資料的座標軸上，對映時沒有利用任何資料內部的分類資訊。因此，雖然做了pca後，整組資料在表示上更加方便(降低了維數並將資訊損失降到最低)，但在分類上也許會變得更加困難；圖的右邊是lda，可以明顯看出，在增加了分類資訊之後，兩組輸入對映到了另外乙個座標軸上，有了這樣乙個對映，兩組資料之間的就變得更易區分了(在低維上就可以區分，減少了很大的運算量)。

線性降維方法，有時候資料之間的非線性關係是很重要的，這時候我們用線性降維會得到很差的結果。對於影象、文字、金融等高維資料，特徵之間存在著極為複雜的非線性關係，簡單的線性分析無法挖掘出特徵之間的蘊含的關聯，因此，有必要對內蘊特徵進行**！

基於核函式的非線性降維方法：kpca kica kda

基於特徵值的非線性降維方法（流型學習）：isomap lle le lpp ltsa mvu

基於神經網路的非線性降維：自編碼器、降噪自編碼、cnn(卷積池化法)等

具體原理待續。。。

資料降維方法總結

降維方法總結

資料降維方法

資料降維演算法總結

相關推薦