風控指標 KS

2021-10-09 15:17:14 字數 2148 閱讀 2616

ks(kolmogorov-smirnov)讀作 「柯爾莫哥洛夫-斯公尺爾諾夫」

ks統計量是信用評分和其他很多學科中常見的統計量,在金融風控領域中,常用於衡量模型對正負樣本的區分度。

通常來說,值越大,模型區分正負樣本的能力越強,一般0.3以上,說明模型的效果比較好(申請評分卡)。

其定義如下:

與roc曲線相似,roc是以fpr作為橫座標,tpr作為縱座標,通過改變不同閾值,從而得到roc曲線。

而在ks曲線中,則是以閾值作為橫座標,以fpr和tpr作為縱座標,ks曲線則為tpr-fpr,ks曲線的最大值通常為ks值。

當閾值減小時,tpr和fpr會同時減小,當閾值增大時,tpr和fpr會同時增大。而在實際工作中,我們希望tpr更大一些,fpr更小一些,即tpr-fpr越大越好。

從上面的分析可知 ks=

max(

tpr−

fpr)

ks=max(tpr-fpr)

ks=max

(tpr

−fpr

),因此當ksks

ks最大的時候,tpr

tprtp

r 和 fpr

fprfp

r 之間的差值最大。

第2幅圖中的紅線為roc曲線,該曲線橫軸座標分別為 fpr

fprfp

r 和 tpr

tprtp

r,圖中黑線為 y=x

y=xy=

x,圖中藍線為 y=x

y=xy=

x 的平行線與roc曲線的相交線,相交於a點。

因此,在a點時,tpr

−fpr

tpr-fpr

tpr−fp

r取得最大值,對應於圖上:

t pr

=abf

pr=a

ctpr = ab \\ fpr = ac

tpr=ab

fpr=

acks 即為藍色曲線的與y軸的截距.

step 1. 對變數進行分箱(binning),可以選擇等頻、等距,或者自定義距離。

step 2. 計算每個分箱區間的好賬戶數(goods)和壞賬戶數(bads)。

step 3. 計算每個分箱區間的累計好賬戶數占總好賬戶數比率(cum_good_rate)和累計壞賬戶數佔總壞賬戶數比率(cum_bad_rate)。

step 4. 計算每個分箱區間累計壞賬戶佔比與累計好賬戶佔比差的絕對值,得到ks曲線。也就是: [公式]

step 5. 在這些絕對值中取最大值,得到此變數最終的ks值。

為幫助大家理解,現以具體資料(非業務資料)展示這一過程,如圖2所示。其中,total是每個分數區間裡的樣本量,total_rate為樣本量佔比;bad代表逾期,bad_rate為每個分數區間裡的壞樣本佔比。

圖 2 - ks計算過程表

那麼,分析這張表我們可以得到哪些資訊呢?

模型分數越高,逾期率越低,代表是信用評分。因此,低分段bad rate相對於高分段更高, cum_bad_rate 曲線增長速率會比 cum_good_rate 更快,cum_bad_rate 曲線在 cum_good_rate 上方。

每個分箱裡的樣本數基本相同,說明是等頻分箱。分箱時需要考慮樣本量是否滿足統計意義。

若我們設定策略 cutoff 為0.65(低於這個值的使用者**為bad,將會被拒絕),查表可知低於 cutoff 的 cum_bad_rate 為82.75%,那麼將拒絕約82.75%的壞賬戶。

根據bad_rate變化趨勢,模型的排序性很好。如果是a卡(信用評分),那麼對排序性要求就比較高,因為需要根據風險等級對使用者風險定價。

模型的ks達到53.1%,區分度很強。這是設定cutoff為0.65時達到的最理想狀態。實際中由於需權衡通過率與壞賬率之間的關係,一般不會設定在理想值。因此,ks統計量是好壞距離或區分度的上限。

通常情況下,模型ks很少能達到52%,因此需要檢驗模型是否發生過擬合,或者資料資訊洩漏 。

金融風控01 風控業務解析

入門資料推薦 補充資料採集會涉及到埋點和爬蟲。反欺詐引擎 模型 無標籤 反欺詐引擎主要包括兩個部分,反欺詐規則 主要 和反欺詐模型。傳統的監督模型較少的使用到,主要涉及到無監督演算法 社交網路演算法 深度學習 異常檢測 知識圖譜。規則引擎 策略 主要通過資料分析 挖掘手段以及一些監督 無監督演算法,...

解讀 信貸業務風控逾期指標及風控模型評估指標

一 網際網路金融中需要關注的風控逾期指標 1.逾期天數 dpd days past due 自應還日次日起到實還日期間的日期數 舉例 dpdn 表示逾期天數 n天,如dpd30 表逾期天數 30天的合同 2.逾期期數 自應還日次日起到實還日期間的日期數 舉例 正常資產用c表示 mn表示逾期n期 m1...

採用 信貸業務風控逾期指標及風控模型評估指標

一 網際網路金融中需要關注的風控逾期指標 1.逾期天數 dpd days past due 自應還日次日起到實還日期間的日期數 舉例 dpdn 表示逾期天數 n天,如dpd30 表逾期天數 30天的合同 2.逾期期數 自應還日次日起到實還日期間的日期數 舉例 正常資產用c表示 mn表示逾期n期 m1...