機器學習 降維

2022-06-12 04:18:08 字數 1209 閱讀 5141

1、什麼是降維?

數學知識:特徵值分解

設a是n階方陣,如果有常數λ和n維非零列向量α的關係式 aα = λα 成立,則稱λ為方陣a的特徵值,非零向量α稱為方陣a的對應於特徵值入的特徵向量

降維:將資料的特徵數量從高維轉換到低維

實際中很多資料是高維的,但資料「內在的維度」可能更低

例如:通訊資料原始有7維:入網時間、****、每月話費,每月流量、每月通話時長欠費金額、欠費月數。"內在維度"可能只有3個:使用者忠誠度、消費能力、欠費指數

降維是解決高維資料的維度災難問題的一種手段,能夠作為一種特徵抽取的方法,便於對資料進行視覺化分析。

2、主成分分析pca:基本原理、優化目標和求解方法

在人臉識別和影象壓縮等領域得到了廣泛的應用

方差比例與資料重構:通過確定將為前後方差保留比例選擇降維後的樣本維數l,可預先設定乙個方差比例閾值如90%

從資料重構角度來看,通過矩陣wt從y可以得到重構資料為xwwt,且重構誤差為||x-xwwt||f~2

3、自編碼器:找到資料高效表示的神經網路方法

一種特殊的神經網路,嘗試將輸入複製到輸出,能夠表示非線性變換

編碼器:將輸入x轉換成隱含表示h

解碼器:將隱含表示h轉換成輸出x'

優化目標:使得x'和x盡量接近

當隱含層神經元數量小於輸入層時,可以當做一種降維演算法。

深層自編碼器(對稱的轉換)

指數級地降低表示某些函式的計算成本

指數級的減少學習某些函式所需的訓練資料量

一些實驗結果表名,深層自編碼器比淺自編碼器產生更好的壓縮效果。

4、降維常用實踐工具介紹

主要使用的是sklearn

5、實踐案例:python降維實踐及在特徵臉、影象重構和文字資料中的應用

numpy:求解特徵值和特徵向量

pandas:資料讀取與預處理

matplotlib、seaborn:資料視覺化

sklearn:中文新聞的向量化、t-sne降維

tensorflow:自編碼器的構建與訓練

機器學習 降維

資料降維的主要方法 投影和流形學習 投影 高維空間的所有訓練例項實際上 或近似於 受乙個低得多的低維子空間所影響 投影並不是降維的最佳方法。許多情況下,許多情況下,子空間可能會彎曲或轉動,比如 著名的瑞士卷玩具資料集 簡單地進行平面投影會直接將瑞士卷的不同層壓扁在一起。d維流形就是n維空間的一部分,...

機器學習 降維

資料壓縮 視覺化 pca principal component analysis 即主成分分析方法,是一種使用最廣泛的資料降維演算法。pca的主要思想是將n維特徵對映到k維上,這k維是全新的正交特徵也被稱為主成分,是在原有n維特徵的基礎上重新構造出來的k維特徵。pca的工作就是從原始的空間中順序地...

機器學習降維方法

特徵降維方法包括 lasso,pca,小波分析,lda,奇異值分解svd,拉普拉斯特徵對映,sparseautoencoder,區域性線性嵌入lle,等距對映isomap,embedding。lasso least absolute shrinkage and selection operator,...