（sklearn）機器學習（六）特徵降維

ndarray

維數：

0維：標量 1維：向量 2維：矩陣

。。。

對二維陣列降維

此處的降維：

降低特徵的個數

降維的兩種方法：

特徵選擇

filter過濾式方差選擇法：低方差特徵過濾相關係數 - 特徵與特徵之間的相關程度 embedded（嵌入式）：決策樹正則化深度學習

主成分分析

低方差特徵過濾

特徵方差小：某個特徵大多樣本的值比較相近

特徵方差大：某個特徵很多樣本的值都有差別

sklearn api：

sklearn.feature_selection.variancethreshold(threshold = 0.0) 刪除所有低方差特徵 variance.fit_transform(x) x: numpy array格式的資料[n_samples, n_features] 返回值：訓練集差異低於threshold的特徵將被刪除。

預設值是保留所有非零方差特徵，即刪除所有樣本中具有相同值的特徵。

api：
from scipy.stats import pearsonr
x :(n,)array_like
y :(n,)array_like returns:
(pearson's correlation coefficient,p-value

from scipy.stats import pearsonr
r = pearsonr(x,y) # 相關性（相關係數）

1）選擇其中乙個 2）加權求和

3）主成分分析

定義：高維資料轉化為低維資料的過程，此過程中可能會捨棄原有資料、創造新的變數作用：是資料維數壓縮，盡可能降低原資料的維數（複雜度），損失少量資訊

應用：回歸分析或者聚類分析當中

from sklearn.decomposition import pca

api: sklearn.decomposition.pca(n_components= none ) 將資料分解為較低維數空間 n_components：小數：表示保留百分比之多少的資訊整數：減少到多少特徵 pca.fit_transform(x) x: numpy array格式的資料[n_samples, n_features]

返回值：轉換後指定維度的array

機器學習特徵降維

機器學習中的資料維度與真實世界的維度本同末離。機器學習中，通常需要將現實世界中的資料進行轉化，形成計算機能夠處理的資料向量的形式，而往往為了學習到較好的模型，需要的資料向量維度都是非常大的。從而導致了學習乙個模型或者演算法往往需要大量的資源的消耗，有時甚至產生維度災難的問題。因此，為了緩解這一問題，...

機器學習sklearn和字典特徵抽取

sklean資料集 sklearn資料集返回值介紹 def datasets demo sklearn資料集使用獲取資料集 iris load iris print 鳶尾花資料集 n iris print 檢視資料集描述 n iris.descr print 檢視特徵值的名字 n iris.fea...

20191201 機器學習複習特徵降維

降維降低維度維數巢狀的維數降維是二維陣列降低特徵的個數正是因為進行訓練的時候，我們都是使用特徵學習。如果特徵學習本身存在問題或者特徵之間關聯性比較強，對於演算法學習會影響很大降維的方法特徵選擇主成分分析特徵選擇資料中包含冗餘或相關變數或稱特徵，屬性，指標旨在從原有特徵中找...

（sklearn）機器學習（六）特徵降維

機器學習 特徵降維

機器學習sklearn和字典特徵抽取

20191201 機器學習複習 特徵降維

相關推薦

機器學習特徵降維

20191201 機器學習複習特徵降維