金融風控專案

一、問題定義

金融的核心是風險控制。自然而然地，ai的主戰場也變成了如何使用ai技術精準的做風險控制。

在風控領域，有乙個很重要的問題是：如何通過使用者的資訊來判斷使用者的逾期與否？

我們通過收集使用者的基本資訊、地域資訊、社交資訊等來判斷乙個人的逾期概率。

資料如下：

二、roc與auc

特徵工程：

第一、很多特徵存在大量的缺失值。那這些特徵怎麼辦呢？刪掉呢，還是保留呢？如果刪掉，什麼樣的特徵需要刪掉呢？

對於此問題，我們可以設計一些規則。比如我們總共有100個樣本，如果乙個特徵在超過60%以上的樣本上都是nan，可以刪掉這個特徵。具體的閾值可以通過視覺化的方式來選擇的。

第二、樣本本身具有大量的缺失值。對於這個問題在第一部分也說過一次。乙個簡單的處理方式是：假如乙個樣本包含了超過50%以上的值為nan，可以刪掉此樣本。

第三、在資料中有一些關於城市的數，而且城市本身對於逾期率還是有著很強的相關性。

比如某些地區的借款人，逾期率就會比其他地區的人高。所以這個特徵本身是有價值的。但是除了頭部幾個城市跟逾期率有很大關係，剩下的許許多多城市倒是沒有太大的關係。

對於這樣的特徵我們可以採用二值化的處理。舉個例子，如果我們發現城市a，城市b，城市c, 城市d的逾期率較高。那麼，我們可以對這些城市做二值化的處理。

具體做法如下: 比如乙個樣本的城市為」城市a「，則通過二值化我們可以把城市資訊表示為(1,0,0,0)，這裡的每乙個位置代表a,b,c,d其中乙個。再比如乙個樣本的城市為c，我們則可以表示成(0,0,1,0)。如果乙個樣本的城市為」城市f「，由於城市f不屬於這幾個頭部城市，所以直接就表示為(0,0,0,0)。針對於城市e也是一樣的表示。

通過這種轉換，我們其實放大了幾個特徵的作用。在資料科學裡是一種常見的手段。

第四、有些字串的特徵需要清洗。比如在一種特整理既出現「北京」，也出現「北京市」，這時候就需要把「市」去掉，然後合併成同乙個字串。

第五、可以設計一些衍生的特徵。舉個例子，有兩組特徵，分別是戶籍的所在地和申請貸款時的所在地。當申請貸款時的所在地不同於戶籍所在地的時候就意味著這個人是在異地申請的，有可能存在一些風險。

對於這種情況，我們可以製造乙個新的特徵(隨便取乙個名字)。當戶籍所在地和申請時的所在地一樣的時候設定為0，不一樣的時候設定為1。

第六、對於類別型特徵，可以像往常一樣用獨熱編碼的形式來表示。

除了特徵的預處理，在此專案中可以適當的做一下特徵選擇的工作。建議使用tree-based classifier來選擇特徵，比如決策樹，xgboost等。

用資料訓練完這些模型之後，你可以通過模型自帶的feature_importances_來獲取每乙個特徵的重要性，然後通過排序即可以得到每個特徵的重要性。

之後基於選出來的特徵重新構造訓練資料和測試資料，之後再做最後的模型的訓練。

簡單說一下模型的評估。在此專案中，我們使用的評估方法叫做auc(area under the curve)，是一種常用的用來評估二分類的評估標準。

其實就是通過fp(false positive),fn(false negative),tp(true positive),tn(true negative)來畫出一條roc曲線，然後再計算它的面積，就可以得到auc的值。

使用方法請參考：這個值越大模型越精準。如果auc值為0.5，就意味著是一條對角線，意味著完全隨機**。

auc的介紹：

通常對於二分類問題，希望auc能夠達到0.8以上。

三、如何處理樣本不平衡的問題？

假如正負樣本差別比較大，比如20:1這種。可以採用適當的方法來處理，比如取樣的方法。

舉個例子，當正樣本個數遠遠少於負樣本的時候，我們可以取樣更多的正樣本。相當於，很多的正樣本被我們重複使用，這個過程也叫作over-sampling。這樣一來，至少訓練的過程當中，正負樣本比例差別不大的。

相反，如果負樣本更少，我們則可以取樣更多的負樣本。

還有一種方式是，當正樣本遠遠少於負樣本時，我們可以部分取樣負樣本，使得取樣後的負樣本個數跟正樣本差不多，這種過程叫作under-sampling。

上述兩種方式是遇到樣本不平衡問題時的常見的處理方式。可以參考：

金融風控專案

金融風控模型

金融風控資料

金融風控01 風控業務解析

金融風控專案

金融風控模型

金融風控資料

金融風控01 風控業務解析

相關推薦