機器學習2(降維)

2022-07-27 21:36:32 字數 1454 閱讀 8569

降維: 減少特徵,稱之為降維(這裡的維不再是 陣列裡面的維度了)

若現在有100個特徵,減少乙個 也可以稱之為降維

1. 特徵選擇

原因:1.冗餘:部分特徵相關度高,容易消耗計算效能

2.噪音: 部分特徵對**結果有影響

三大**:

1. filter(過濾式): variance threshold (從方差的角度去過濾)

api:

sklearn.feature_selection.variancethreshold

variance = variancethreshold(threshold=0) ---- 刪除所有低方差特性

variance.fit_transform(x)

x: numpy array資料格式

返回值:訓練集低於threshold的特徵被刪除。預設值是保留非0方差特徵,即刪除樣本中具有相同值特徵

eg:

1

def var(): #

方差過濾式23

'''4

過濾式5

:return:none

6'''

78 var = variancethreshold(threshold=0)

9 x = var.fit_transform([[1, 2, 3, 6],

10 [1, 6, 6, 8],

11 [1, 21, 6, 7]])

12print(x)

過濾式(資料也會改變,特徵數量也會減少 eg:兩個特徵差不多,就合併兩個特徵)

api: sklearn.decomposition

本質:pca是一種分析,簡化資料集的技術

目的:是資料維數壓縮,盡可能降低原資料維數(複雜度),損失少量資訊

作用:可以削減回歸分析或者聚類分析中特徵的數量

前提:特徵數量達到上百, 考慮資料的簡化

pca(n_components=none) n_components=0.9 (n_components為保留多少的特徵,一般在0.9-0.95)

將資料分解為低維數空間

pca.fit_transform(x)

x: numpy array格式的資料[n_samples, n_features]

返回值: 轉換後指定維度的array

def

pca():

pca = pca(n_components=0.92)

x = pca.fit_transform([[1, 2, 3, 6],

[1, 6, 6, 8],

[1, 21, 6, 7]])

print(x)

補充:

機器學習 降維

資料降維的主要方法 投影和流形學習 投影 高維空間的所有訓練例項實際上 或近似於 受乙個低得多的低維子空間所影響 投影並不是降維的最佳方法。許多情況下,許多情況下,子空間可能會彎曲或轉動,比如 著名的瑞士卷玩具資料集 簡單地進行平面投影會直接將瑞士卷的不同層壓扁在一起。d維流形就是n維空間的一部分,...

機器學習 降維

資料壓縮 視覺化 pca principal component analysis 即主成分分析方法,是一種使用最廣泛的資料降維演算法。pca的主要思想是將n維特徵對映到k維上,這k維是全新的正交特徵也被稱為主成分,是在原有n維特徵的基礎上重新構造出來的k維特徵。pca的工作就是從原始的空間中順序地...

機器學習 降維

1 什麼是降維?數學知識 特徵值分解 設a是n階方陣,如果有常數 和n維非零列向量 的關係式 a 成立,則稱 為方陣a的特徵值,非零向量 稱為方陣a的對應於特徵值入的特徵向量 降維 將資料的特徵數量從高維轉換到低維 實際中很多資料是高維的,但資料 內在的維度 可能更低 例如 通訊資料原始有7維 入網...