機器學習之資料降維

資料降維：減少特徵數量

一、特徵選擇

1、特徵選擇原因

雜訊：部分特徵對**結果由影響

2、特徵選擇是什麼

filter（過濾式）

方差大小：考慮所有樣本這個特徵的資料情況

sklearn.feature_selection.variancethreshold

variancethreshold(threshold=0.0)刪除所有低方差特徵

variance.fit_transform(x)
in [1]
:from sklearn.feature_selection import variancethreshold
var = variancethreshold(threshold=
0.0)
data = var.fit_transform([[
0,2,
0,3]
,[0,
1,4,
3],[
0,1,
1,3]
])data
out [1]
:array([[
2,0]
,[1,
4],[
1,1]
])

二、主成分分析

1、pca是什麼

2、pca語法

將資料分解為較低維數空間

n_components：小數（降維後保留資料的百分之幾）、整數（降維後的維數）

x：numpy array格式的資料[n_samples，n_features]

返回值：轉換後指定維度的array

in [2]
:from sklearn.decomposition import pca
in [3]
:pca = pca(n_components=
0.9)
data = pca.fit_transform([[
2,8,
4,5]
,[6,
3,0,
8],[
5,4,
9,1]
])data
out [3]
:array([[
1.28620952e-15
,3.82970843e+00],
[5.74456265e+00,-
1.91485422e+00],
[-5.74456265e+00,-
1.91485422e+00]]
)

三、降維案例

1、合併表

pd.merge(prior, products, on=[『prodict_id』,『product_id』])

2、建立乙個類似行，列資料（交叉表——特殊分組表）

cross = pd.crosstab(mt[user_id], mt[『aisle』])

3、進行主成分分析

pca = pca(n_components=0.9)

data = pca.fit_transform(cross)

機器學習之降維

降維的意義克服維數災難，獲取本質特徵，節省儲存空間，去除無用雜訊，實現資料視覺化資料壓縮視覺化資料主成分分析 pca pca演算法 python 調庫實現 import matplotlib.pyplot as plt 畫圖 from sklearn.datasets import load...

機器學習之PCA降維

1.前言如果學習分類演算法，最好從線性的入手，線性分類器最簡單的就是lda，它可以看做是簡化版的svm，如果想理解svm這種分類器，那理解lda就是很有必要的了。2.線性判別分析 lda 1 lda思想 lda是一種監督學習的降維技術，也就是說它的資料集的每個樣本是有類別輸出的。這點和pca不同。...

機器學習降維

資料降維的主要方法投影和流形學習投影高維空間的所有訓練例項實際上或近似於受乙個低得多的低維子空間所影響投影並不是降維的最佳方法。許多情況下，許多情況下，子空間可能會彎曲或轉動，比如著名的瑞士卷玩具資料集簡單地進行平面投影會直接將瑞士卷的不同層壓扁在一起。d維流形就是n維空間的一部分，...

機器學習之資料降維

機器學習之降維

機器學習之PCA降維

機器學習 降維

相關推薦

機器學習降維