風控建模整體流程

2021-10-03 02:45:09 字數 1828 閱讀 6480

1. 確定建模目的

在信貸領域中建立風控模型是為了找出可能會逾期的客戶,根據逾期的可能性和資金的鬆緊程度選擇是否放貸。

在支付領域建立風控模型是為了找出可能存在非法經營的商戶,保證商戶沒有違法經營。

2. 確定好壞樣本邏輯

在信貸領域中逾期大於x期(不同公司取值不同)的客戶定義為壞客戶(1),從未逾期的客戶定義為好客戶(0)

在支付風控領域中,有賭博、欺詐、套現、偽卡等行為的商戶定義為壞商戶(1)(具體根據模型要防控的風險決定),未有上述風險的商戶定義為好商戶(0)

3. 特徵工程

在風控領域一直都有這樣一句話 「資料決定了機器學習的上限,而演算法只是盡可能逼近這個上限」,這裡的資料指的就是經過特徵工程得到的資料。通俗的講就是衍生變數去捕獲風險客戶。特徵工程一般分為三個部分:

1. 特徵構建

2. 特徵提取

3. 特徵選擇(iv、gbdt、隨機森林、逐步回歸、相關係數等)

4. 資料準備

做完特徵工程後就確定了需要建模的字段,如果公司的資料較多可以按以下步驟在hive中跑取需要的資料,如果資料量不大也可以在python中或者r中準備資料。

5. 資料清洗

把合併的資料驗證無邏輯錯誤後匯入到python中進行接下來的處理。可以看下數的分布情況,去除一些異常值。

6. 建立模型

建模可供選擇的演算法較多,信貸領域中邏輯回歸演算法比較成熟,應用比較廣泛,模型的穩定性較好,很多的銀行和公司都會用邏輯回歸演算法建立模型。 其它的一些演算法比如決策樹、隨機森林、gbdt、孤立森林、dbscan、神經網路等等根據公司的業務需要也有應用。

7. 模型效果評價

建完模型後,要評價模型的效果,能否投入生產使用,需要看以下指標的情況。如果模型效果不好,要考慮是否有重要的變數沒有衍生出來、或者是較好的變數沒有選擇到模型中去、或者是用的演算法不適合這種場景。

這是我在建模過程中生成的ks圖,本文只放,具體計算公式和繪圖**在後續文章中會給出

7.2 混淆矩陣

這是我在建模過程中生成的混淆矩陣,本文只放,具體計算公式和繪圖**在後續文章中會給出

8. 模型上線

在支付風控領域如果模型驗證沒有問題,一般會上到線上,自動生成案例。

在信貸中會模型搭配規則,判斷申請貸款的人是通過放貸、拒絕放貸、還是轉人工處理。這種也是線上處理,有些公司是準實時批貸,有些是實時批貸,對後台的要求較高。

9. 模型穩定性驗證

模型上線後,要定期觀測模型的各項指標(psi、模型變數均值、最大值、最小值、空值等),看算模型的資料是否正常,模型的變數是否發生很大的偏斜,模型的準確率怎麼樣。如果模型發生了重大偏斜或準確率下降得特別厲害,要及時找出原因,不管模型上線時間有沒有達到半年,都要快速迭代模型,保證業務的正常開展。

10. 模型更迭

一般半年左右,模型需要更迭,具體看資料的偏斜程度。

本文所講的都是大致流程,沒有深入展開分析,在之後的各期中會逐步展開這裡所講的每一小點,給所有需要從事風控模型的同學一點建議。

以上都是我在建模過程中的一點經驗總結,有不正之處懇請指正!

信貸風控一 風控產品流程

1.註冊環節 重點關注身份偽冒風險 包括虛假身份證明和偽冒他人身份 可以通過人臉識別 身份證 手機號 銀行卡三要素驗證等註冊流程,核實申請者身份。2.登入環節 通過密碼驗證 指紋驗證 手機簡訊驗證碼等方式確認本人操作。3.更改手機號 密碼 銀行卡環節 通過密碼驗證 身份證 手機號 銀行卡三要素驗證等...

python風控建模實戰lendingClub

博主原創錄製 作者toby 持牌照消費金融模型專家,和中科院,中科大教授保持長期專案合作 和同盾,聚信立等外部資料來源公司有專案對接。熟悉消費金融場景業務,線上線下業務,包括現金貸,商品貸,醫美,反欺詐,汽車金融等等。模型專案200 擅長python機器學習建模,對於變數篩選,衍生變數構造,變數缺失...

信貸風控建模 無監督分箱方法

在評分卡模型的開發中,連續型變數需要進行分箱操作才能放入模型當中。分箱操作的定義如下 1 等距分箱法 import numpy as np import pandas as pd from pandas import dataframe np.random.seed 1 隨機數生成器種子 incom...