機器學習基礎 特徵預處理及降維(筆記二)

2021-10-10 14:37:07 字數 2324 閱讀 8372

通過一些轉換函式將特徵資料轉換成更加適合演算法模型的特徵資料過程

包含內容:

數值型資料的無量綱化:

歸一化標準化

特徵的單位或者大小相差較大,或者某特徵的方差相比其他的特徵要大出幾個數量級,容易影響(支配)目標結果,使得一些演算法無法學習到其他的特徵。

使用無量綱化使不同規格的資料轉換到同一規格

api:sklearn.preprocessing

定義:通過把原始資料進行變換把資料對映到(預設為[0,1])之間

公式:

作用於每一列,max為一列的最大值,min為一列的最小值,那麼x』』為最終的結果,mx和mi為之指定區間預設值mx為1,mi為0

api:sklearn.preprocession.minmaxscaler(feature_range=(0,1)…)

minmaxscalar.fit_transform(x)

x:numpy array格式的資料[n_samples,n_features]

返回值:轉換後的形狀相同的array

缺陷:受異常值影響大,魯棒性較差

定義:通過對原始資料進行變換把資料變換到均值為0,標準差為1範圍內

公式:

作用於每一列,mean為平均值,σ

api:sklearn.preprocessing.standardscaler()

處理之後,對每列來說,所有資料都聚集在均值為0附近,標準差為1

standardscaler.fit_transform(x)

x:numpy array格式的資料[n_samples,n_features]

返回值:轉換之後的形狀相同的array

降維是指在某些限定條件下,降低隨機變數(特徵)個數,得到一組「不相關」主變數的過程

降維的倆種方式:

特徵選擇

主成分分析

方法

filter(過濾式):主要**特徵本身特點、特徵與特徵和目標值之間關聯

方差選擇法:低方差特徵過濾

embedded(嵌入式):演算法自動選擇特徵(特徵與目標之間的關聯)

決策樹:資訊熵

正則化:l1,l2

深度學習:卷積等

sklearn.feature_selection

低方差特徵過濾:

特徵方差小:某個特徵大多樣本的值比較相近

特徵方差大:某個特徵很多樣本的值都有差別

api:sklearn.feature_selection.variancethreshold(threshold=0.0)

刪除所有低方差特徵

variance.fit_transform(x)

x:numpy array格式的資料[n_samples,n_features]

返回值:訓練集差異低於thresholdd 的特徵將被刪除。預設值是保留所有非零方差特徵,即刪除所有樣本中具有相同值的特徵。

皮爾遜相關係數(pearson correlation coefficient)

反映變數之間相關關係密切程度的統計指標。

公式:特點:

相關係數的值介於-1與+1之間,-1<=r<=1

當r>0時,表示倆變數正相關,r<0時,倆變數為負相關

當|r|=1時,表示倆變數為完全相關,當r=0時,表示倆變數間無相關關係

當00.7<=|r|,1為高度線性相關

api:from scipy.stats import pearsonr

x:(n,)array_like

y:(n,)array_like returns:(pearson』s correlation coefficient,p-value)

定義:高維資料轉化為地維資料的過程,在此過程中可能會有捨棄原有資料、創造新的變數

作用:是資料維數壓縮,盡可能降低元資料的維數(複雜度)損失少量資訊。

應用:回歸分析或聚類分析

api:sklearn.decomposition.pca(n_components=none)

將資料分解為較低維數空間

n_components:         

小數:表示保留百分之多少的資訊

整數:減少到多少特徵

pca.fit_transform(x) x:numpy array格式的資料    [n_samples,n_features]

返回值:轉換後指定維度的array

特徵預處理 降維

降維 降維是指在某些限定條件下,較低特徵的個數,得到一組 不相關 的主變數的過程 1 特徵選擇 1.1 方法 嵌入式embedded 模組 sklearn.feature selection 1.2 方差選擇 sklearn.feature selection.variancethreshold t...

機器學習 特徵選擇及降維

資料中包含冗餘或無關變數 或稱特徵 屬性 指標等 旨在從原有特徵中找出主要特徵 演算法自動選擇特徵 特徵與目標值之間的關聯 決策樹 資訊熵 資訊增益 正則化 l1 l2 深度學習 卷積等 sklearn.feature selection刪除低方差的一些特徵,前面講過方差的意義。再結合方差的大小來考...

機器學習 特徵降維

機器學習中的資料維度與真實世界的維度本同末離。機器學習中,通常需要將現實世界中的資料進行轉化,形成計算機能夠處理的資料向量的形式,而往往為了學習到較好的模型,需要的資料向量維度都是非常大的。從而導致了學習乙個模型或者演算法往往需要大量的資源的消耗,有時甚至產生維度災難的問題。因此,為了緩解這一問題,...