datawhale資料探勘課程任務二

特徵衍生：在實際工作中，自己用到的是特徵公升維，即one-hot encoding。另一種特徵衍生方法是特徵組合，比如拼接年齡+收入區間成為乙個新特徵，但是在金融行業一般不這麼做、因為可解釋性差容易不符合監管要求。

計算iv函式。在機器學習的二分類問題中，iv值（information value）主要用來對輸入變數進行編碼和**能力評估。特徵變數iv值的大小即表示該變數**能力的強弱。iv 值的取值範圍是[0, 正無窮)，如果當前分組中只包含響應客戶或者未響應客戶時，iv = 正無窮。量化指標含義如下：< 0.02useless for prediction、0.02 to 0.1weak predictor、0.1 to 0.3medium predictor、0.3 to 0.5strong predictor 、>0.5 suspicious or too good to be true。

計算iv值的**：

隨機森林進行特徵選擇：

在隨機森林介紹

中提到了隨機森林乙個重要特徵：能夠計算單個特徵變數的重要性。並且這一特徵在很多方面能夠得到應用,例如在銀行貸款業務中能否正確的評估乙個企業的信用度,關係到是否能夠有效地**貸款。但是信用評估模型的資料特徵有很多,其中不乏有很多噪音,所以需要計算出每乙個特徵的重要性並對這些特徵進行乙個排序,進而可以從所有特徵中選擇出重要性靠前的特徵。

一：特徵重要性

在隨機森林中某個特徵x的重要性的計算方法如下：

1：對於隨機森林中的每一顆決策樹,使用相應的oob

(袋外資料)資料來計算它的袋外資料誤差

,記為erroob1.

2: 隨機地對袋外資料oob所有樣本的特徵x加入雜訊干擾(就可以隨機的改變樣本在特徵x處的值),再次計算它的袋外資料誤差,記為erroob2.

3：假設隨機森林中有ntree棵樹,那麼對於特徵x的重要性=∑(erroob2-erroob1)/ntree,之所以可以用這個表示式來作為相應特徵的重要性的度量值是因為：若給某個特徵隨機加入雜訊之後,袋外的準確率大幅度降低,則說明這個特徵對於樣本的分類結果影響很大,也就是說它的重要程度比較高。

1.2.

datawhale資料探勘課程任務二

datawhale資料探勘任務六

DataWhale 資料探勘 Task2

DataWhale 資料探勘 Task3

datawhale資料探勘課程 任務二

datawhale資料探勘任務六

DataWhale 資料探勘 Task2

DataWhale 資料探勘 Task3

相關推薦

datawhale資料探勘課程任務二