機器學習降維

資料降維的主要方法：

投影和流形學習

投影：

高維空間的所有訓練例項實際上（或近似於）受乙個低得多的低維子空間所影響

投影並不是降維的最佳方法。許多情況下，許多情況下，子空間可能會彎曲或轉動，比如

著名的瑞士卷玩具資料集

簡單地進行平面投影會直接將瑞士卷的不同層壓扁在一起。

d維流形就是n維空間的一部分，區域性類似於乙個d維超平面。在瑞士卷的例子中，d=2，n=3：它區域性類似於乙個2d平面，但是在第三個維度捲起。

流形學習：

許多降維演算法是通過對訓練例項進行流形建模來實現的，這被稱為流形學習。

pca

主成分分析（pca）是迄今為止最流行的降維演算法。

將訓練集投影到低維超平面之前，需要選擇正確的超平面。選擇保留最大差異性的看起來比較合理，比其他方式丟失的資訊更少。

或者，比較原始資料集與其軸上的投影之間的均方距離，使這個均方距離最小的軸是最合理的選擇。

pca流程：

例：

主成分軸的數量與資料集維度數量相同

定義第i條軸的單位向量就叫作第i個主成分。第乙個主成分是c1,第二個主成分是c2.

標準矩陣分解技術，奇異值分解

它可以將訓練集矩陣x分解成三個矩陣的點積usv，其中v包含我們想要的所有主成分

主成分矩陣：

下面的python**使用numpy的svd()函式來獲取訓練集中所有的主成分，並提取前兩個

x_centered = x - x.mean(axis=0)
u,s,v = np.linalg.svd(x_centered)
c1 = v.t[:, 0]
c2 = v.t[:, 1]

機器學習降維

資料壓縮視覺化 pca principal component analysis 即主成分分析方法，是一種使用最廣泛的資料降維演算法。pca的主要思想是將n維特徵對映到k維上，這k維是全新的正交特徵也被稱為主成分，是在原有n維特徵的基礎上重新構造出來的k維特徵。pca的工作就是從原始的空間中順序地...

機器學習降維

1 什麼是降維？數學知識特徵值分解設a是n階方陣，如果有常數和n維非零列向量的關係式 a 成立，則稱為方陣a的特徵值，非零向量稱為方陣a的對應於特徵值入的特徵向量降維將資料的特徵數量從高維轉換到低維實際中很多資料是高維的，但資料內在的維度可能更低例如通訊資料原始有7維入網...

機器學習降維方法

特徵降維方法包括 lasso，pca，小波分析，lda，奇異值分解svd，拉普拉斯特徵對映，sparseautoencoder，區域性線性嵌入lle，等距對映isomap，embedding。lasso least absolute shrinkage and selection operator,...

機器學習 降維

機器學習 降維

機器學習 降維

機器學習降維方法

相關推薦

機器學習降維

機器學習降維

機器學習降維