機器學習 降維

2021-09-24 02:49:20 字數 1090 閱讀 1705

資料降維的主要方法:

投影和流形學習

投影:

高維空間的所有訓練例項實際上(或近似於)受乙個低得多的低維子空間所影響

投影並不是降維的最佳方法。許多情況下,許多情況下,子空間可能會彎曲或轉動,比如

著名的瑞士卷玩具資料集

簡單地進行平面投影會直接將瑞士卷的不同層壓扁在一起。

d維流形就是n維空間的一部分,區域性類似於乙個d維超平面。在瑞士卷的例子中,d=2,n=3:它區域性類似於乙個2d平面,但是在第三個維度捲起。

流形學習:

許多降維演算法是通過對訓練例項進行流形建模來實現的,這被稱為流形學習。

pca

主成分分析(pca)是迄今為止最流行的降維演算法。

將訓練集投影到低維超平面之前,需要選擇正確的超平面。選擇保留最大差異性的看起來比較合理,比其他方式丟失的資訊更少。

或者,比較原始資料集與其軸上的投影之間的均方距離,使這個均方距離最小的軸是最合理的選擇。

pca流程:

例:

主成分軸的數量與資料集維度數量相同

定義第i條軸的單位向量就叫作第i個主成分。第乙個主成分是c1,第二個主成分是c2.

標準矩陣分解技術,奇異值分解

它可以將訓練集矩陣x分解成三個矩陣的點積usv,其中v包含我們想要的所有主成分

主成分矩陣

下面的python**使用numpy的svd()函式來獲取訓練集中所有的主成分,並提取前兩個

x_centered = x - x.mean(axis=0)

u,s,v = np.linalg.svd(x_centered)

c1 = v.t[:, 0]

c2 = v.t[:, 1]

機器學習 降維

資料壓縮 視覺化 pca principal component analysis 即主成分分析方法,是一種使用最廣泛的資料降維演算法。pca的主要思想是將n維特徵對映到k維上,這k維是全新的正交特徵也被稱為主成分,是在原有n維特徵的基礎上重新構造出來的k維特徵。pca的工作就是從原始的空間中順序地...

機器學習 降維

1 什麼是降維?數學知識 特徵值分解 設a是n階方陣,如果有常數 和n維非零列向量 的關係式 a 成立,則稱 為方陣a的特徵值,非零向量 稱為方陣a的對應於特徵值入的特徵向量 降維 將資料的特徵數量從高維轉換到低維 實際中很多資料是高維的,但資料 內在的維度 可能更低 例如 通訊資料原始有7維 入網...

機器學習降維方法

特徵降維方法包括 lasso,pca,小波分析,lda,奇異值分解svd,拉普拉斯特徵對映,sparseautoencoder,區域性線性嵌入lle,等距對映isomap,embedding。lasso least absolute shrinkage and selection operator,...