機器學習特徵選擇及降維

資料中包含冗餘或無關變數（或稱特徵、屬性、指標等），旨在從原有特徵中找出主要特徵

演算法自動選擇特徵（特徵與目標值之間的關聯）

決策樹:資訊熵、資訊增益

正則化：l1、l2

深度學習：卷積等

sklearn.feature_selection

刪除低方差的一些特徵，前面講過方差的意義。再結合方差的大小來考慮這個方式的角度

特徵方差小：某個特徵大多樣本的值比較相近

特徵方差大：某個特徵很多樣本的值都有差別

sklearn.feature_selection.variancethreshold(threshold =
0.0)

刪除所有低方差特徵variance.fit_transform(x)

x:numpy array格式的資料[n_samples,n_features]

返回值：訓練集差異低於threshold的特徵將被刪除。預設值是保留所有非零方

差特徵，即刪除所有樣本中具有相同值的特徵。

from sklearn.feature_selection import variancethreshold
'''例項
[1,2,3]
[1,3,3]
[1,5,3]
'''var = variancethreshold(threshold=
0.0)
data = var.fit_transform([[
1,2,
3],[
1,3,
3],[
1,6,
3]])
print
(data)

降維是指在某些限定條件下，降低隨機變數(特徵)個數，得到一組「不相關」主變數的過程定義：高維資料轉化為低維資料的過程，在此過程中可能會捨棄原有資料、創造新的變數作用：是資料維數壓縮，盡可能降低原資料的維數（複雜度），損失少量資訊。應用：回歸分析或者聚類分析當中

sklearn.decomposition.pca(n_components=none)

將資料分解為較低維數空間

from sklearn.decomposition import pca
#主成分分析 ，進行特徵降維
pc = pca(n_components=
0.9)
data = pc.fit_transform([[
2,8,
4,5]
,[6,
3,0,
8],[
5,4,
9,1]
])print
(data)

資料如下：order_products__prior.csv：訂單與商品資訊字段：order_id, product_id, add_to_cart_order, reordered

products.csv：商品資訊

字段：product_id, product_name, aisle_id, department_id

orders.csv：使用者的訂單資訊

字段：order_id,user_id,eval_set,order_number,….

aisles.csv：商品所屬具體物品類別

字段： aisle_id, aisle

分析：

# 去讀四張表的資料

prior = pd.read_csv(

"./instacart/order_products__prior.csv"

)products = pd.read_csv(

"./instacart/products.csv"

)orders = pd.read_csv(

"./instacart/orders.csv"

)aisles = pd.read_csv(

"./instacart/aisles.csv"

)# 合併四張表

mt = pd.merge(prior, products, on=

['product_id'

,'product_id'])

mt1 = pd.merge(mt, orders, on=

['order_id'

,'order_id'])

mt2 = pd.merge(mt1, aisles, on=

['aisle_id'

,'aisle_id'])

(mt2.head(10)

)'''

pd.crosstab 統計使用者與物品之間的次數關係（統計次數）

也叫做交叉表（特殊的分組工具）

'''cross = pd.crosstab(mt2[

'user_id'

], mt2[

'aisle'])

(cross.head(10)

)#主成分分析，進行特徵降維 , 儲存90%的資訊量

pc = pca(n_components=

0.9)

data = pc.fit_transform(cross)

(data)

(data.shape)

機器學習特徵降維

機器學習中的資料維度與真實世界的維度本同末離。機器學習中，通常需要將現實世界中的資料進行轉化，形成計算機能夠處理的資料向量的形式，而往往為了學習到較好的模型，需要的資料向量維度都是非常大的。從而導致了學習乙個模型或者演算法往往需要大量的資源的消耗，有時甚至產生維度災難的問題。因此，為了緩解這一問題，...

20191201 機器學習複習特徵降維

降維降低維度維數巢狀的維數降維是二維陣列降低特徵的個數正是因為進行訓練的時候，我們都是使用特徵學習。如果特徵學習本身存在問題或者特徵之間關聯性比較強，對於演算法學習會影響很大降維的方法特徵選擇主成分分析特徵選擇資料中包含冗餘或相關變數或稱特徵，屬性，指標旨在從原有特徵中找...

（sklearn）機器學習（六）特徵降維

ndarray 維數 0維標量 1維向量 2維矩陣對二維陣列降維此處的降維降低特徵的個數降維的兩種方法特徵選擇 filter過濾式方差選擇法低方差特徵過濾相關係數特徵與特徵之間的相關程度 embedded 嵌入式決策樹正則化深度學習主成分分析低方差特徵過濾特徵方差小某...

機器學習 特徵選擇及降維

機器學習 特徵降維

20191201 機器學習複習 特徵降維

（sklearn）機器學習（六）特徵降維

相關推薦

機器學習特徵選擇及降維

機器學習特徵降維

20191201 機器學習複習特徵降維