特徵工程特徵工程入門與實踐（一）

特徵工程：將資料轉換為能更好地表示潛在問題的特徵，從而提高機器學習效能。

大體上，機器學習分為兩類：

評估分類問題，可以採用交叉驗證法：

from sklearn.linear_model import logisticregression
from sklearn.model_selection import cross_val_score # 交叉驗證
x =...
y =...
lr = logisticregression(
)scores = cross_val_score(lr, x, y, cv=
5, scoring=
'accuracy'
)# 考慮accuracy..
.

對於回歸問題，可以使用均方誤差mse

from sklearn.linear_model import linearregression
from sklearn.model_selection import cross_val_score # 交叉驗證
x =...
y =...
lr = linearregression(
)scores = cross_val_score(lr, x, y, cv=
5, scoring=
'mean_squared_error'
)# 考慮mse..
.

例如對於聚類分析，通常採用輪廓係數（silhouette coefficient，在[−1

][-1,1]

[−1,1]

之間，表示聚類分離性）加上人工分析來判斷特偵工程是提公升了效能與否。

from sklearn.metrics import silhouette_score # 輪廓係數
silhouette_score(attributes, cluster_labels)

特徵工程入門與實踐 3 特徵增強

第3章特徵增強清洗資料主要內容識別資料中的缺失值刪除有害資料輸入填充缺失值對資料進行歸一化標準化構建新特徵手動或自動選擇移除特徵使用數學矩陣計算將資料集轉換到不同的維度。3.1 識別資料中的缺失值檢視資料集中是否有資料點是空的，用pandas dataframe內建的...

特徵工程入門與實踐筆記 sklearn

目錄一特徵理解 1 定類資料 2 定序資料 3 定距資料 4 定比資料二清洗資料 1 識別缺失值 1 刪除缺失值的行 2 填充缺失值醫學類資料禁用，因為要求真實 2 標準化歸一化三特徵構建 1 定類特徵的填充 2 定量特徵的填充 3 定類特徵的編碼 4 定序特徵的編碼 5 連續值分箱...

演算法實踐特徵工程

資料集是金融資料非原始資料，已經處理過了我們要做的是貸款使用者是否會逾期。中 status 是結果標籤 0表示未逾期，1表示逾期。特徵選擇分別用iv值和隨機森林進行特徵選擇。再用7個模型邏輯回歸 svm 決策樹隨機森林 gbdt xgboost和lightgbm 進行模型評估。iv的全稱...

特徵工程 特徵工程入門與實踐（一）

特徵工程入門與實踐 3 特徵增強

特徵工程入門與實踐 筆記 sklearn

演算法實踐 特徵工程

相關推薦

特徵工程特徵工程入門與實踐（一）

特徵工程入門與實踐筆記 sklearn

演算法實踐特徵工程