《特徵工程三部曲》之三 維度壓縮

2021-08-09 23:06:08 字數 1260 閱讀 4118

當特徵選擇完成之後,就可以直接訓練模型了,但是可能由於特徵矩陣過大導致計算量大,訓練時間長的問題;因此,降低特徵矩陣維度,也是必不可少的,主成分分析就是最常用的降維方法,在減少資料集的維度的同時,保持對方差貢獻最大的特徵,在sklearn中,我們使用pca類進行主成分分析。

我們人類能看到的資料是三維資料,那麼怎樣把四維資料壓縮到三維資料呢?

#匯入iris特徵資料到data變數中

import pandas

from sklearn import datasets

import matplotlib.pyplot as plt

from sklearn.decomposition import pca

from mpl_toolkits.mplot3d import axes3d

iris =datasets.load_iris()

data = iris.data

#分類變數到target變數中

target = iris.target

#使用主成分分析,將四維資料壓縮為三維

pca_3 = pca(n_components=3)

data_pca_3 = pca_3.fit_transform(data)

#繪圖colors=

markers=

#彈出圖形

#%matplotlib qt

#三維資料

fig = plt.figure(1,figsize=(8,6))

ax = axes3d(fig,elev=-150,azim=110)

data_pca_gb = pandas.dataframe(

data_pca_3

).groupby(target)

for g in data_pca_gb.groups:

ax.scatter(

data_pca_gb.get_group(g)[0],

data_pca_gb.get_group(g)[1],

data_pca_gb.get_group(g)[2],

c=colors[g],

marker=markers[g],

cmap=plt.cm.paired

)plt.show()

生成的效果圖如下:

《特徵工程三部曲》之三 維度壓縮

1 pca 更夠保持對方差貢獻最大的特徵。1 最近重構性 樣本到這個超平面的距離都足夠近 2 最大可分性 樣本點到這個超平面的投影都能盡可能的分開 2 svd 奇異值分解 矩陣分解方法 左奇異向量用於壓縮行,右奇異向量壓縮列,壓縮方法均是取奇異值較大的左奇異向量和右奇異向量與原資料c相乘。pca 是...

特徵工程三部曲 (1)特徵選擇

特徵質量的好壞,直接影響到最終的模型結果。構建特徵是乙個很大的工程,總體來講包括 特徵選擇 特徵表達 和 本篇文章,我們討論一下特徵選擇。特徵選擇指的是,在全部的特徵中,挑選出對最終的機器學習任務有用的特徵。整體來講,從特徵選擇的過程中有沒有模型的參與,可以將特徵選擇的方法分為 基於統計量的選擇和基...

簽到功能之三部曲

簽到功能之三部曲 簽到功能是絕大多數遊戲都具備的功能,今天討論的是簽到系統的三種表現型別以及組合方式,歡迎指正 一 從簽到功能的作用看其本質 簽到功能的作用 上線即可獲得一定獎勵 可看出本質是 來玩就白送 可看出目的是 通過資源投放增加玩家上線率與留存率 二 由其本質衍生至它的表現型別 雖然是贈送,...