資料降維演算法總結

在原始的空間中，包含冗餘資訊以及噪音資訊，在實際應用中總會產生誤差，降低了準確率，我們希望減少冗餘資訊所造成的誤差，提公升識別精度。又或者希望通過降維演算法尋找內部的本質結構特徵。

資料降維的目的：維度降低便於視覺化和計算，深層次的含義在於有效資訊的特徵提取以及無用資訊的拋棄。

線性對映：

pca以及lda：

pca：通過某種線性投影，將高維資料對映到低維空間中，並希望在所投影後的維度資料方差最大，以此使用較少的資料維度，同時保留較多的原始資料點的特性。

得到的最優的w是資料協方差矩陣前k個最大的特徵值對應的特徵向量作為列向量構成的。

pca追求的是在降維之後能夠最大化保持資料的內在資訊，並通過衡量在投影方向上的資料方差大小來衡量該方向的重要性。

我們希望在每乙個維度上的投影點盡可能的分散，這種分散程度可以使用方差進行衡量。

降維的目標是希望在資訊不丟失的前提下盡可能的去除一些相關性的字段，方差最大已經保證了盡可能保留更多的原始資訊。我們希望降維後的字段能夠都不存在相關性，而協方差就是用來度量兩個隨機變數相關性的引數，協方差為0的兩個隨機變數稱為不相關。

pca實現目標：將一組n維向量降為k維，其目標是選擇k個單位正交基，使得原始資料在變換到這組基上，各字段的兩兩方差維0，而各字段的方差盡可能大。

優點以及缺點：

優點：最小誤差以及提取主要資訊

缺點：pca降所有的樣本作為乙個整體進行看待，去尋找乙個均方誤差最小意義下的最優線性投影，而忽略了類別屬性，而它忽略了投影方向可能剛好包含重要的可分資訊。

lda與pca的區別：

前者是有監督的演算法，lda是有監督的演算法，pca是無監督的。因為pca演算法沒有考慮到資料的標籤問題，只是把原始資料對映到一些方差比較大的方向上去，而lda演算法則考慮了資料的標籤。所以一般來說，如果我們的資料是有類別標籤的，那麼優先選擇lda去降維，當然也可以使用pca做很小幅度的降維消去雜訊，然後再使用lda降維。如果沒有類別標籤，那麼肯定pca是最先考慮的乙個選擇了。

資料降維演算法總結

降維演算法總結

資料降維方法總結

降維方法總結

資料降維演算法總結

降維演算法總結

資料降維方法總結

降維方法總結

相關推薦