資料探勘 xgboost 特徵的重要程度分析

2021-08-13 14:41:53 字數 963 閱讀 5801

**片段

import pandas as pd

import xgboost as xgb

import operator

# # 從sklearn.cross_validation裡選擇匯入train_test_split用於資料分割。

# from sklearn.model_selection import train_test_split

# # 從使用train_test_split,利用隨機種子random_state取樣25%的資料作為測試集。

# x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=33)

## # 從sklearn.preprocessing裡選擇匯入資料標準化模組。

# from sklearn.preprocessing import standardscaler

# # 對訓練和測試的特徵資料進行標準化。

# ss = standardscaler()

# x_train = ss.fit_transform(x_train)

# x_test = ss.transform(x_test)

#這裡的引數自己改

xgb_params =

num_rounds = 1000

dtrain = xgb.dmatrix(x_train, label=y_train)

gbdt = xgb.train(xgb_params, dtrain, num_rounds)

importance = gbdt.get_fscore()

importance = sorted(importance.items(), key=operator.itemgetter(1))

print importance

資料探勘 ctr特徵

訓練集分成k fold,用其他k 1 fold計算ctr,然後merge給第k個fold,遍歷k次。然後訓練集整體計算ctr,再merge給測試集。def ctr fea train,test,feature for fea in feature print fea temp train label...

資料探勘 特徵工程

特徵工程 常見的特徵工程包括 總結 1 特徵工程的主要目的是將資料轉換為能更好地表示潛在問題的特徵,從而提高機器學習的效能。比如,異常值處理為了去除雜訊,填補缺失值可以加入先驗知識等。2 特徵構造屬於特徵工程的一部分,目的是為了增強資料的表達。3 如果特徵是匿名特徵,並不知道特徵相互之間的關聯性,這...

資料探勘之特徵工程

標籤編碼與獨熱編碼 onehotencoder獨熱編碼和 labelencoder標籤編碼 資料探勘的基本流程 多項式特徵 特徵構建 生成多項式特徵 對於特徵離散化,特徵交叉,連續特徵離散化非常經典的解釋 資料預處理與特徵選擇 特徵工程到底是什麼?機器學習中的資料清洗與特徵處理綜述 sklearn ...