解讀信貸業務風控逾期指標及風控模型評估指標

一、網際網路金融中需要關注的風控逾期指標

1.逾期天數 dpd (days past due)

自應還日次日起到實還日期間的日期數

舉例：dpdn+表示逾期天數 >=n天，如dpd30+表逾期天數 >=30天的合同

2.逾期期數

自應還日次日起到實還日期間的日期數

舉例：正常資產用c表示

mn表示逾期n期:m1逾期一期,m2逾期二期,m3逾期三期,m4逾期四期,m5逾期五期,m6逾期六期

mn+表示逾期n期(含)以上，m7+表示逾期期數 >=m7

3.貸款餘額 enr

至某時點借款人尚未償還的本金，即：全部剩餘本金作為貸款餘額

4.月均貸款餘額 anr

月均貸款餘額 = (月初貸款餘額 + 月末貸款餘額)/2，月初貸款餘額即上月月底貸款餘額

5.c,m1,m2,m3…的貸款餘額

根據逾期期數(c,m1,m2,m3…)，計算每條借款的當時的貸款餘額

貸款餘額 = 放款時合同額 –已還本金

已還本金 = (放款日次日 ~ t-1)的還款本金總額

6.核銷金額

貸款逾期m7後經審核進行銷帳，核銷金額即在核銷日期當天的貸款餘額

7.**金額 recovery

來自歷史所有已核銷合同的全部實收金額

8.淨壞賬 ncl

當月新增核銷金額 – 當月**金額

9.在賬月份 mob

放款後的月份

舉例：mob0,放款日至當月月底

mob1,放款後第二個完整月份

mob2,放款後第三個完整月份

10.(c->m1、m1->m2、m2->m3、m3->m4、m4->m5、m5->m6)滾動率 flow rate

舉例：c-m1=當月進入m1的貸款餘額/上月末c的貸款餘額

m2-m3=當月進入m3的貸款餘額/上月末m2的貸款餘額

當月不同逾期期數的貸款餘額/當月底總貸款餘額

舉例：coin(m1)%=當月m1貸款餘額/當月底貸款餘額(c-m6)

coin(m1+)%=當月m1−m6貸款餘額/當月底貸款餘額(c-m6)

12.逾期率lagged(m1)%、lagged(m2)%、lagged(m3)%、lagged(m4)%、lagged(m5)%、lagged(m6)%

當月不同逾期期數的貸款餘額/往前推n個月的總貸款餘額

舉例:lagged(m1)%=當月m1的貸款餘額/上個月底的貸款餘額(c~m6)

lagged(m4)%=當月m4的貸款餘額/往前推四期的總貸款餘額

lagged(m4+)%=當月m4的貸款餘額/往前推四期的總貸款餘額

+ 當月m5的貸款餘額/往前推五期的總貸款

+ 當月m6的貸款餘額/往前推六期的總貸款餘額

13.賬齡分析vintage

統計每個月新增放款在之後各月的逾期情況

解讀模型評估指標

在建好模型後，我們需要對模型的質量進行評估。模型中常見的分類模型評估指標一般是通過混淆矩陣計算而來。

二、解讀模型評估指標

模型評估之 — 混淆矩陣

混淆矩陣

tp（實際為正**為正），fp（實際為負但**為正），tn（實際為負**為負），fn（實際為正但**為負）

通過混淆矩陣我們可以給出各指標的值：

recall=tp / (tp+fn)

accuracy=(tp+tn) / (tp+fp+tn+fn)

precision=tp / (tp+fp)

npv=tn / (tn+fn)

f1 score=(2recallprecision) / (recall+precision)

模型評估之 — roc圖和auc

roc曲線說明：

sensitivity=正確**到的正例數/實際正例總數

1-specificity=正確**到的負例數/實際負例總數

縱座標為sensitivity（true positive rate），橫座標為1-specificity（true negative rate），roc 曲線則是不同閾值下sensitivity和1-specificity的軌跡。

**閾值：**閾值就是乙個分界線，用於判定正負例的，在模型**後我們會給每條**資料進行打分（0**auc（area under the roc curve）**指標在模型評估階段常被用作最重要的評估指標來衡量模型的準確性，橫座標為其中隨機分類的模型auc為0.5，所以模型的auc基線值大於0.5才有意義。

模型的roc曲線越遠離對角線，說明模型效果越好，roc曲線下的區域面積即為auc值，auc值越接近1模型的效果越好。隨著閾值的減小，sensitivity和1-specificity也相應增加，所以roc曲線呈遞增態勢。

評估指標之 — lift提公升圖

lift =[tp/(tp+fp)] / [(tp+fn)/(tp+fp+fn+tn)] = pv_plus / pi1，它衡量的是，與不利用模型相比，模型的**能力「變好」了多少，lift(提公升指數)越大，模型的執行效果越好。

不利用模型，我們只能利用「正例的比例是(tp+fn)/(tp+fp+fn+tn)」這個樣本資訊來估計正例的比例（baseline model），而利用模型之後，我們不需要從整個樣本中來挑選正例，只需要從我們**為正例的那個樣本的子集tp+fp中挑選正例，這時**的準確率pv_plus(precision)為tp/(tp+fp)。

lift圖

上圖的縱座標是lift，橫座標是正例集百分比。隨著閾值的減小，更多的客戶就會被歸為正例，也就是**成正例的比例變大。當閾值設得夠大，只有一小部分觀測值會歸為正例，但這一小部分一定是最具有正例特徵的觀測值集合（用前面銀行向客戶推薦信用卡的例子來看，這一部分人群對推薦的反應最為活躍），所以在這個設定下，對應的lift值最大。同樣，當閾值設定得足夠的小，那麼幾乎所有的觀測值都會被歸為正例（佔比幾乎為100%）——這時分類的效果就跟baseline model差不多了，相對應的lift值就接近於1。

roc曲線和lift曲線都能夠評價邏輯回歸模型的效果：類似信用評分的場景，希望能夠盡可能完全地識別出有違約風險的客戶，選擇roc曲線及相應的auc作為指標；

類似資料庫精確營銷的場景，希望能夠通過對全體消費者的分類而得到具有較高響應率的客戶群從而提高投入產出比，選擇lift曲線作為指標；

評估指標 — gain增益圖

gains(增益) 與 lift （提公升）類似：lift 曲線是不同閾值下lift和depth的軌跡，gain曲線則是不同閾值下pv_plus和depth的軌跡，而pv_plus=lift*pi1= tp/tp+fp，所以它們顯而易見的區別就在於縱軸刻度的不同。

增益圖是描述整體精準率的指標。按照模型**出的概率從高到低排列，將每乙個百分位數內的精準率指標標註在圖形區域內，就形成了非累積的增益圖。如果對每乙個百分位及其之前的精準率求和，並將值標註在圖形區域內，則形成累積的增益圖。

模型評估之 — k-s圖

正樣本洛倫茲曲線記為f(x)，負樣本洛倫茲曲線記為g(x)，k-s曲線實際上是f(x)與g(x)的差值曲線。k-s曲線的最高點（最大值）定義為ks值，ks值越大，模型分值的區分度越好，ks值為0代表是最沒有區分度的隨機模型。準確的來說，k-s是用來度量陽性與陰性分類區分程度的。

k-s圖

其實通常在實際使用的過程中，我們大多數都是通過auc指標和recall召回率來判斷乙個二分類模型的。

**於66號學苑

解讀信貸業務風控逾期指標及風控模型評估指標

採用信貸業務風控逾期指標及風控模型評估指標

信貸風控一風控產品流程

金融風控01 風控業務解析

解讀 信貸業務風控逾期指標及風控模型評估指標

採用 信貸業務風控逾期指標及風控模型評估指標

信貸風控一 風控產品流程

金融風控01 風控業務解析

相關推薦

解讀信貸業務風控逾期指標及風控模型評估指標

採用信貸業務風控逾期指標及風控模型評估指標

信貸風控一風控產品流程