無監督學習 降維

2022-08-24 04:06:10 字數 1656 閱讀 3211

降維演算法應用:資料壓縮、資料視覺化。

主成分分析(pca)是最常見的降維演算法。

在 pca 中,我們要做的是找到乙個方向向量(vector direction),

當我們把所有的資料

都投射到該向量上時,我們希望投射平均均方誤差能盡可能地小。方向向量是乙個經過原點

的向量,而投射誤差是從特徵向量向該方向向量作垂線的長度。

關於pca演算法推導我覺得還是挺複雜的。之前在做數模比賽時,經常用到pca演算法,但是都是拿來直接套用解決實際問題,根本沒有仔細思考原理推導。

這裡總結一下pca演算法原理推導中用到的兩個重要原理:

特徵值分解矩陣和svd分解矩陣。

如果乙個向量v是矩陣a的特徵向量,將一定可以表示成下面的形式:

其中,λ是特徵向量v對應的特徵值,乙個矩陣的一組特徵向量是一組正交向量。

(2) 特徵值分解矩陣

對於矩陣a,有一組特徵向量v,將這組向量進行正交化單位化,就能得到一組正交單位向量。特徵值分解,就是將矩陣a分解為如下式:

其中,q是矩陣a的特徵向量組成的矩陣,

則是乙個對角陣,對角線上的元素就是特徵值。

2. svd分解矩陣原理

奇異值分解是乙個能適用於任意矩陣的一種分解的方法,對於任意矩陣a總是存在乙個奇異值分解:

假設a是乙個m*n的矩陣,那麼得到的u是乙個m*m的方陣,u裡面的正交向量被稱為左奇異向量。σ是乙個m*n的矩陣,σ除了對角線其它元素都為0,對角線上的元素稱為奇異值。

是v的轉置矩陣,是乙個n*n的矩陣,它裡面的正交向量被稱為右奇異值向量。而且一般來講,我們會將σ上的值按從大到小的順序排列。

svd分解矩陣a的步驟:

(1) 求

的特徵值和特徵向量,用單位化的特徵向量構成 u。

(2) 求

的特徵值和特徵向量,用單位化的特徵向量構成 v。

(3) 將

或者的特徵值求平方根,然後構成 σ。

1.減少**變數個數;

2.確保這些變數是相互獨立的;

3.提供乙個框架來解釋結果;

4.去除雜訊;

優點:它是無監督學習,完全無引數限制的。在pca的計算過程中完全不需要人為的設定引數或是根據任何經驗模型對計算進行干預,最後的結果只與資料相關,與使用者是獨立的。

用pca技術可以對資料進行降維,同時對新求出的「主元」向量的重要性進行排序,根據需要取前面最重要的部分,將後面的維數省去,可以達到降維從而簡化模型或是對資料進行壓縮的效果。同時最大程度的保持了原有資料的資訊。

各主成分之間正交,可消除原始資料成分間的相互影響。

計算方法簡單,易於在計算機上實現。

缺點:如果使用者對觀測物件有一定的先驗知識,掌握了資料的一些特徵,卻無法通過引數化等方法對處理過程進行干預,可能會得不到預期的效果,效率也不高。

貢獻率小的主成分往往可能含有對樣本差異的重要資訊。

特徵值矩陣的正交向量空間是否唯一有待討論。

在非高斯分布的情況下,pca方法得出的主元可能並不是最優的,此時在尋找主元時不能將方差作為衡量重要性的標準。

無監督學習之降維方法 PCA,SNE,t SNE

pca降維是,假設投影後樣本點的方差最大。具體實現步驟是 1.用x表示原有資料 2.零均值化 3.求協方差矩陣 4.求特徵值和特徵向量 5.根據相應的特徵值把特徵向量從大到小排序,從組成的矩陣選取k行代表降維的基 k維 6.降維的基和原有資料x相乘,即為降維後的資料y pca是無監督模型。pca介紹...

有監督學習和無監督學習 無監督學習

一.無監督學習包含的演算法 聚類 kmeans聚類演算法 降維 pca 之所以叫無監督學習 是因為模型是從無標籤的資料開始學習,沒有目標值。二.kmeans聚類 1.聚類演算法步驟 定義 將高維資料轉化為低維資料的過程,在此過程中可能會捨棄原有資料,創造新的變數 作用 降低原始資料的維數 複雜度 損...

無監督學習與監督學習

1.無監督和有監督的理解方法有很多,主要可以從以下幾方面來理解 1 無監督與監督學習的區別在於乙個無教學值,乙個有教學值。但是,個人認為他們的區別在於無監督學習一般是採用聚簇等演算法來分類不同樣本。而監督學習一般是利用教學值與實際輸出值產生的誤差,進行誤差反向傳播修改權值來完成網路修正的。但是無監督...