datawhale資料探勘任務六

2021-09-12 11:30:22 字數 742 閱讀 3733

通過之前的部落格可以看出,隨機森林的表現效果比較好。所以本次stacking融合的比較基準就是lr。至於融合,用的是隨機森林和邏輯回歸進行融合。

**為:

##任務六:使用stacking進行模型融合

# 構建 stacking 模型,用之前表現較好的lr和隨機森林進行模型融合

s_clf = stackingclassifier(classifiers=[rfc, ltc], meta_classifier=ltc, use_probas=true, verbose=3) 

s_clf.fit(x_train, y_train)

model_metrics(s_clf, x_train, x_test, y_train, y_test)

結果如下:

[liblinear]準確性:

train:0.9928

test:0.7498

精確性:

train:0.9903

test: 0.9903

召回率:

train:0.9808

test:0.3760

f1_score:

train:0.9855

test:0.4306

roc_auc:

train:0.9996

test:0.7230

ks:train:0.9848

test:0.3564

可以看到,和原來部落格5的lr相比,模型融合後的效果比原來要更好。

datawhale資料探勘課程 任務二

特徵衍生 在實際工作中,自己用到的是特徵公升維,即one hot encoding。另一種特徵衍生方法是特徵組合,比如拼接年齡 收入區間成為乙個新特徵,但是在金融行業一般不這麼做 因為可解釋性差容易不符合監管要求。計算iv函式。在機器學習的二分類問題中,iv值 information value 主...

DataWhale 資料探勘 Task2

import warnings import matplotlib.pyplot as plt import pandas as pd import pandas profiling import scipy.stats as st import seaborn as sns warnings.fi...

DataWhale 資料探勘 Task3

特徵工程 import pandas as pd import numpy as np import tsfresh as tsf from tsfresh import extract features,select features from tsfresh.utilities.datafram...