隨機森林之信貸風險模型特徵工程

2021-08-16 09:04:58 字數 725 閱讀 7169

今天在複習隨機森林的時候，突然有了一些思考：信貸風險模型在我的理解，就是為了評估某個客戶（企業，個體）在貸款等相關業務中，是否能夠有效的將其貸款**。通過自己的一些了解與猜想，信用評估模型中的主要評價**是客戶的資料。那麼，資料可能會存在各種各樣的資料，例如其歷史借貸資訊等。同時，收集的資料肯定會有很多的雜訊。所以，如何根據這些特徵資訊來分析客戶的借貸情況就顯得尤為重要。

通常，在機器學習這裡，我們都會構造乙個合適的模型，從而根據資料來訓練出乙個比較合適的引數。這裡，資料的特徵構造對模型的效能會造成很大的影響。

所以，這裡我就聯想了到了再進行模型訓練之前可以對資料進行一些操作，其中特徵的選擇就可以借鑑一下。下面，我主要介紹如何使用隨機森林進行特徵選擇。

這裡，隨機森林可以作為一種特徵選擇的工具來進行資料預處理。隨機森林的主要思想可由下面這張圖來說明：

主要的步驟有三步：

對於隨機森林的每一顆決策樹，使用響應的oob(袋外資料)來計算袋外資料誤差（eroor_oob1）

然後，在袋外資料oob的所有樣本中，對於某個樣本特徵x隨機加入雜訊干擾，相當於隨機改變了樣本在特徵x處的值，再次計算袋外資料誤差error_oob2

n棵樹：

《scikit learn》隨機森林之回歸

今天我們學習下隨機森林做回歸的用法話不多說直接上測試看的更加清晰，總體上和回歸樹是一樣的使用流程 from sklearn.datasets import load boston from sklearn.model selection import cross val score from s...

隨機森林之特徵選擇

摘要在隨機森林介紹中提到了隨機森林乙個重要特徵能夠計算單個特徵變數的重要性。並且這一特徵在很多方面能夠得到應用,例如在銀行貸款業務中能否正確的評估乙個企業的信用度,關係到是否能夠有效地貸款。但是信用評估模型的資料特徵有很多,其中不乏有很多噪音,所以需要計算出每乙個特徵的重要性並對這些特徵進行...

隨機森林之Bagging法

摘要在隨機森林介紹中提到了bagging方法,這裡就具體的學習下bagging方法。bagging方法是乙個統計重取樣的技術,它的基礎是bootstrap。基本思想是利用bootstrap方法重取樣來生成多個版本的分類器,然後把這些分類器進行組合。通常情況下組合的分類器給出的結果比單一分類器...