機器學習2（降維）

降維：減少特徵，稱之為降維（這裡的維不再是陣列裡面的維度了）

若現在有100個特徵，減少乙個也可以稱之為降維

1. 特徵選擇

原因：1.冗餘：部分特徵相關度高，容易消耗計算效能

2.噪音：部分特徵對**結果有影響

三大**：

1. filter(過濾式)： variance threshold （從方差的角度去過濾）

api：

sklearn.feature_selection.variancethreshold

variance = variancethreshold(threshold=0) ---- 刪除所有低方差特性

variance.fit_transform(x)

x: numpy array資料格式

返回值：訓練集低於threshold的特徵被刪除。預設值是保留非0方差特徵，即刪除樣本中具有相同值特徵

eg：

1
def var(): #
方差過濾式23
'''4
過濾式5
:return:none
6'''
78 var = variancethreshold(threshold=0)
9 x = var.fit_transform([[1, 2, 3, 6],
10 [1, 6, 6, 8],
11 [1, 21, 6, 7]])
12print(x)

過濾式（資料也會改變，特徵數量也會減少 eg：兩個特徵差不多，就合併兩個特徵）

api: sklearn.decomposition

本質：pca是一種分析，簡化資料集的技術

目的：是資料維數壓縮，盡可能降低原資料維數（複雜度），損失少量資訊

作用：可以削減回歸分析或者聚類分析中特徵的數量

前提：特徵數量達到上百，考慮資料的簡化

pca(n_components=none) n_components=0.9 (n_components為保留多少的特徵，一般在0.9-0.95)

將資料分解為低維數空間

pca.fit_transform(x)

x: numpy array格式的資料[n_samples, n_features]

返回值：轉換後指定維度的array

def
pca():
pca = pca(n_components=0.92)
x = pca.fit_transform([[1, 2, 3, 6],
[1, 6, 6, 8],
[1, 21, 6, 7]])
print(x)

補充：

機器學習降維

資料降維的主要方法投影和流形學習投影高維空間的所有訓練例項實際上或近似於受乙個低得多的低維子空間所影響投影並不是降維的最佳方法。許多情況下，許多情況下，子空間可能會彎曲或轉動，比如著名的瑞士卷玩具資料集簡單地進行平面投影會直接將瑞士卷的不同層壓扁在一起。d維流形就是n維空間的一部分，...

機器學習降維

資料壓縮視覺化 pca principal component analysis 即主成分分析方法，是一種使用最廣泛的資料降維演算法。pca的主要思想是將n維特徵對映到k維上，這k維是全新的正交特徵也被稱為主成分，是在原有n維特徵的基礎上重新構造出來的k維特徵。pca的工作就是從原始的空間中順序地...

機器學習降維

1 什麼是降維？數學知識特徵值分解設a是n階方陣，如果有常數和n維非零列向量的關係式 a 成立，則稱為方陣a的特徵值，非零向量稱為方陣a的對應於特徵值入的特徵向量降維將資料的特徵數量從高維轉換到低維實際中很多資料是高維的，但資料內在的維度可能更低例如通訊資料原始有7維入網...

機器學習2（降維）

機器學習 降維

機器學習 降維

機器學習 降維

相關推薦

機器學習降維

機器學習降維

機器學習降維