特徵工程 特徵工程入門與實踐(一)

2021-10-01 16:18:58 字數 1086 閱讀 3608

特徵工程:將資料轉換為能更好地表示潛在問題的特徵,從而提高機器學習效能。

大體上,機器學習分為兩類:

評估分類問題,可以採用交叉驗證法:

from sklearn.linear_model import logisticregression

from sklearn.model_selection import cross_val_score # 交叉驗證

x =...

y =...

lr = logisticregression(

)scores = cross_val_score(lr, x, y, cv=

5, scoring=

'accuracy'

)# 考慮accuracy..

.

對於回歸問題,可以使用均方誤差mse

from sklearn.linear_model import linearregression

from sklearn.model_selection import cross_val_score # 交叉驗證

x =...

y =...

lr = linearregression(

)scores = cross_val_score(lr, x, y, cv=

5, scoring=

'mean_squared_error'

)# 考慮mse..

.

例如對於聚類分析,通常採用輪廓係數(silhouette coefficient,在[−1

,1

][-1,1]

[−1,1]

之間,表示聚類分離性)加上人工分析來判斷特偵工程是提公升了效能與否。

from sklearn.metrics import silhouette_score # 輪廓係數

silhouette_score(attributes, cluster_labels)

特徵工程入門與實踐 3 特徵增強

第3章 特徵增強 清洗資料 主要內容 識別資料中的缺失值 刪除有害資料 輸入 填充 缺失值 對資料進行歸一化 標準化 構建新特徵 手動或自動選擇 移除 特徵 使用數學矩陣計算將資料集轉換到不同的維度。3.1 識別資料中的缺失值 檢視資料集中是否有資料點是空的,用pandas dataframe內建的...

特徵工程入門與實踐 筆記 sklearn

目錄 一 特徵理解 1 定類資料 2 定序資料 3 定距資料 4 定比資料 二 清洗資料 1 識別缺失值 1 刪除缺失值的行 2 填充缺失值 醫學類資料禁用,因為要求真實 2 標準化 歸一化 三 特徵構建 1 定類特徵的填充 2 定量特徵的填充 3 定類特徵的編碼 4 定序特徵的編碼 5 連續值分箱...

演算法實踐 特徵工程

資料集是金融資料 非原始資料,已經處理過了 我們要做的是 貸款使用者是否會逾期。中 status 是結果標籤 0表示未逾期,1表示逾期。特徵選擇 分別用iv值和隨機森林進行特徵選擇。再用7個模型 邏輯回歸 svm 決策樹 隨機森林 gbdt xgboost和lightgbm 進行模型評估。iv的全稱...