機器學習之資料降維

2021-09-25 09:23:15 字數 1646 閱讀 3643

資料降維:減少特徵數量

一、特徵選擇

1、特徵選擇原因

雜訊:部分特徵對**結果由影響

2、特徵選擇是什麼

filter(過濾式)

方差大小:考慮所有樣本這個特徵的資料情況

sklearn.feature_selection.variancethreshold

variancethreshold(threshold=0.0)刪除所有低方差特徵

variance.fit_transform(x)

in [1]

:from sklearn.feature_selection import variancethreshold

var = variancethreshold(threshold=

0.0)

data = var.fit_transform([[

0,2,

0,3]

,[0,

1,4,

3],[

0,1,

1,3]

])data

out [1]

:array([[

2,0]

,[1,

4],[

1,1]

])

二、主成分分析

1、pca是什麼

2、pca語法

將資料分解為較低維數空間

n_components:小數(降維後保留資料的百分之幾)、整數(降維後的維數)

x:numpy array格式的資料[n_samples,n_features]

返回值:轉換後指定維度的array

in [2]

:from sklearn.decomposition import pca

in [3]

:pca = pca(n_components=

0.9)

data = pca.fit_transform([[

2,8,

4,5]

,[6,

3,0,

8],[

5,4,

9,1]

])data

out [3]

:array([[

1.28620952e-15

,3.82970843e+00],

[5.74456265e+00,-

1.91485422e+00],

[-5.74456265e+00,-

1.91485422e+00]]

)

三、降維案例

1、合併表

pd.merge(prior, products, on=[『prodict_id』,『product_id』])

2、建立乙個類似行,列資料(交叉表——特殊分組表)

cross = pd.crosstab(mt[user_id], mt[『aisle』])

3、進行主成分分析

pca = pca(n_components=0.9)

data = pca.fit_transform(cross)

機器學習之降維

降維的意義 克服維數災難,獲取本質特徵,節省儲存空間,去除無用雜訊,實現資料視覺化 資料壓縮 視覺化資料 主成分分析 pca pca演算法 python 調庫實現 import matplotlib.pyplot as plt 畫圖 from sklearn.datasets import load...

機器學習之PCA降維

1.前言 如果學習分類演算法,最好從線性的入手,線性分類器最簡單的就是lda,它可以看做是簡化版的svm,如果想理解svm這種分類器,那理解lda就是很有必要的了。2.線性判別分析 lda 1 lda思想 lda是一種監督學習的降維技術,也就是說它的資料集的每個樣本是有類別輸出的。這點和pca不同。...

機器學習 降維

資料降維的主要方法 投影和流形學習 投影 高維空間的所有訓練例項實際上 或近似於 受乙個低得多的低維子空間所影響 投影並不是降維的最佳方法。許多情況下,許多情況下,子空間可能會彎曲或轉動,比如 著名的瑞士卷玩具資料集 簡單地進行平面投影會直接將瑞士卷的不同層壓扁在一起。d維流形就是n維空間的一部分,...