(sklearn)機器學習(六)特徵降維

2021-10-06 16:11:28 字數 1499 閱讀 1006

ndarray

維數:

0維:標量

1維:向量

2維:矩陣

。。。

對二維陣列降維

此處的降維:

降低特徵的個數

降維的兩種方法:

特徵選擇

filter過濾式

方差選擇法:低方差特徵過濾

相關係數 - 特徵與特徵之間的相關程度

embedded(嵌入式):

決策樹正則化

深度學習

主成分分析

低方差特徵過濾

特徵方差小:某個特徵大多樣本的值比較相近

特徵方差大:某個特徵很多樣本的值都有差別

sklearn api:

sklearn.feature_selection.variancethreshold(threshold = 0.0)

刪除所有低方差特徵

variance.fit_transform(x)

x: numpy array格式的資料[n_samples, n_features]

返回值:訓練集差異低於threshold的特徵將被刪除。

預設值是保留所有非零方差特徵,即刪除所有樣本中具有相同值的特徵。

api:

from scipy.stats import pearsonr

x :(n,)array_like

y :(n,)array_like returns:

(pearson's correlation coefficient,p-value

from scipy.stats import pearsonr

r = pearsonr(x,y) # 相關性(相關係數)

1)選擇其中乙個

2)加權求和

3)主成分分析

定義:高維資料轉化為低維資料的過程,此過程中可能會捨棄原有資料、創造新的變數

作用:是資料維數壓縮,盡可能降低原資料的維數(複雜度),損失少量資訊

應用:回歸分析或者聚類分析當中

from sklearn.decomposition import pca
api:

sklearn.decomposition.pca(n_components=

none

) 將資料分解為較低維數空間

n_components:

小數:表示保留百分比之多少的資訊

整數:減少到多少特徵

pca.fit_transform(x)

x: numpy array格式的資料[n_samples, n_features]

返回值:轉換後指定維度的array

機器學習 特徵降維

機器學習中的資料維度與真實世界的維度本同末離。機器學習中,通常需要將現實世界中的資料進行轉化,形成計算機能夠處理的資料向量的形式,而往往為了學習到較好的模型,需要的資料向量維度都是非常大的。從而導致了學習乙個模型或者演算法往往需要大量的資源的消耗,有時甚至產生維度災難的問題。因此,為了緩解這一問題,...

機器學習sklearn和字典特徵抽取

sklean資料集 sklearn資料集返回值介紹 def datasets demo sklearn資料集使用 獲取資料集 iris load iris print 鳶尾花資料集 n iris print 檢視資料集描述 n iris.descr print 檢視特徵值的名字 n iris.fea...

20191201 機器學習複習 特徵降維

降維 降低維度 維數 巢狀的維數 降維是二維陣列 降低特徵的個數 正是因為進行訓練的時候,我們都是使用特徵學習。如果特徵學習本身存在問題或者特徵之間關聯性比較強,對於演算法學習 會影響很大 降維的方法 特徵選擇 主成分分析 特徵選擇 資料中包含冗餘或相關變數 或稱特徵,屬性,指標 旨在從原有特徵中找...