第六章 模型的驗證 監控與調優

2021-10-10 12:33:43 字數 4121 閱讀 7759

簡介:得到評分卡模型後,還需要驗證模型的效能。並且部署後還要持續監測模型的表現。

目錄:

模型的區分度

區分度的概念

評分模型的作用是通過分數將好壞人群進行區分。從分數的性質可以看出,好的評分模型下違約人群的分數低、非違約人群的分數高。反之壞的評分模型下違約與非違約人群的分數是幾乎無法區分的。在理想模型裡,所有非違約人群的評分均高於違約人群。但在現實場景中無法達到這樣的理想狀態。因此我們需要借助某些統計量來衡量好壞人群分數的差異性,即評分模型的區分能力。

從量化角度來說,我們需要找出乙個指標來衡量分數對好壞樣本的區分度,這樣的乙個指標需要滿足一定的性質:

一般可以從以下幾個方面衡量模型的區分度:

好、壞樣本的分布的差異

好、壞樣本在統計學意義下的"距離"

最直接的辦法就是檢驗在評分的意義下兩類樣本的分布的差異性。在非參統計學裡有多種指標可以計算兩類樣本的分布的差異性,最常用的就是ks(kolmogorov-smirnov)值。

分布的差異性看區分度-ks值(續)

需要注意的是,計算ks時需要將分數從低分到高分進行排序。這是因為評分模型中,違約人群的分數低於非違約人群。因此在低分段時,違約人群的累計速度會高於非違約人群。

正常情況下ks的範圍是0~100%。當評分模型的結果與預期相反,即壞樣本得分高於好樣本時,ks為負。

ks越高,說明評分模型對好壞人群的區分能力越強。通常要求ks在訓練樣本上超過40%,在訓練樣本以及部署後超過30%。

ks對應的分數可以作為切分點(cut-off point)的選擇之一。當兩個模型在同乙個樣本集上的ks相等或者接近時,推薦使用切分點較小的模型。

除了ks值之外,還可以通過gini score來評估區分度:

先將樣本分為若干組,再計算每組的壞樣本率,進而得到gini score。gini score越**明區分度越強。

需要注意的是:

gini score與分組方式相關。同乙個模型下,將樣本分為10組與20組得到的結果是完全不同的。一般來說分組越細,gini score越小

gini score不能反映分數在好壞人群上的有序性

對好壞比敏感。改變好壞比後,gini score也會發生改變。

在機器學習模型和統計學模型中,"距離"是頻繁使用的度量之一,用以衡量單個樣本或者樣本集的差異。同樣的,在評分模型中我們也可以計算好壞樣本的距離來檢驗分數的區分度:

和分別表示好壞樣本的評分均值,和分別表示好壞樣本的評分的方差。

注意:與好壞樣本的比例無關。當對好壞樣本進行抽樣處理後,不會顯著影響到的值。

當好、壞樣本的分數的分布比較接近正態分佈時, 最能真實刻畫區分度。

沒有參照的閾值。可以用來比較不同模型在同一樣本上的表現,或者同一模型在不同樣本上的表現。

模型的**性與混淆矩陣

模型的**性

除了區分度之外,**性也是評分模型重要的評估效能之一。與其他**模型不用評分模型**的準確性並不是簡單地評估有多少樣本能被正確地分類。

考慮以下場景:有1000個樣本,其中有10個違約樣本,其他都是非違約的。現在某模型將所有的樣本都**為非違約。在這樣的情況下,分類正確率為(1000-10)/1000=99%.

從正確率的角度看,該模型的**性是很強的。但是,該模型未能識別出任何一例違約樣本,對信用風控是沒有幫助的。我們需要尋找出可以正確評估模型**性的指標。

兩類錯誤

type i:將好樣本**為壞樣本

type ii:將壞樣本**為好樣本

兩類錯誤的代價是不同的。通常第二類錯誤的代價高於第一類。

其中,對角線的值是**正確的值;fp和fn表示第一類和第二類錯誤

在評分模型中,我們用正例代表違約類別,用反例代表非違約類別

在混淆矩陣的基礎之上,我們衍生出一些常用的效能指標

,所有被**為違約的樣本中,真正違約的比例

,所有真正違約的樣本中,能被模型檢測出來的比例

我們希望和都能達到很高的數值。但是在非理想的情況下,二者是不能同時增大的。例如,當我們認為所有的樣本都是違約樣本時,recall達到最大,但是precision很小。或者,當我們認為評分最低的那些樣本是違約樣本時,precision很高但是recall很小。

綜合了precision和recall兩個指標。

但是上述的混淆矩陣是用於**結果為類別的模型(例如svm或者決策樹)。評分模型的輸出是分數(或概率,二者等價)。此時不能直接將輸出結果用來構建混淆矩陣。解決辦法是,先用分數與某一閾值做比較。低於閾值的樣本被分為違約樣本,反之則是非違約樣本。任何乙個閾值下都能建立相應的混淆矩陣,繼而可以計算出precision,recall,f1或其他指標。將不同閾值下的效能指標用曲線圖的方式展現出來是乙個好的評估手段。roc曲線是其中的一種常用的度量曲線,描述的是tpr和fpr在不同閾值下的變化情況。

frp反映的是所有被**為違約樣本中,真實為非違約樣本的比例。

類似的,我們希望tpr達到最大100%,同時fpr達到最小0%。此時意味著所有的違約樣本都能被識別出來,而沒有非違約樣本被誤判。但只有理想模型才能達到這種效果。

比較好的評分模型意味著當fpr較低時,tpr能相對達到比較大的值。反映在roc曲線上,就是曲線盡可能的靠近(0,1)點。

壞的模型意味著好壞樣本均勻散落在全部評分中,即tpr和fpr的增長速率相近。此時roc曲線近似對角線。該模型近似隨機判別的模型。

更壞的模型則將違約樣本給予高分,將非違約樣給予低分,此時roc曲線低於對角線。

如何衡量roc與(0,1)接近的程度呢?曲線下的面積是較好的度量工具。該面積被稱為auc(area under curve)。當auc較大時,說明模型的**能力很強。通常用70%作為評估auc的閾值。

需要注意的是,在衡量模型的**性和區分性的時候,需要知道樣本的違約標籤,意味著需要等待乙個完整的表現期。如果表現期定位1年,則現在只能衡量模型在1年前的**性和區分性。

模型的平穩性

評分模型追求平穩性,即當信貸產品、客群、巨集觀經濟、監管政策等沒有發生大的變化時,在不同客群或者相同客群不同時間上的評分的結果應該相對保持穩定。由於評分卡模型的入模變數已經經過分箱處理,消除了有細微的變化對評分結果帶來的影響,因此"隨機性"的因素已經得到了一定的控制。在這樣的情況下,如果評分結果發生較激烈的變化,說明模型的平穩性發生弱化。

在評分模型中,通常用psi指標來衡量模型的平穩性。計算如下:

同乙個評分模型在兩份樣本(比如,同乙個信貸產品在不同月份的申請人群的得分)上比較分布的平穩性。將兩份樣本分各自為k組,計算每組在各自總體中的比例,設為。

psi越低說明兩組樣本上的分數越接近。

注:4.模型的調優

模型需要進行必要的調優,當遇到如下情形時:

1,監控結果不滿足要求

2,產品發生變化

3,人**生變化

4,其他巨集觀因素發生變化

特徵層面的調整通常分為2種:

1,捨棄或者新增特徵

例如:捨棄"過去6個月的跨銀行申請次數",新增"過去3個月的跨銀行申請次數"

2,調整特徵計算方法或者分箱方法

例如:對年齡進行重新分箱

調整的原則是:

當變數的psi顯著公升高,或者iv顯著降低時,需要做調整

根據新的樣本和(或)調整後的特徵,重新進行模型訓練,估計模型引數

要求:

第六章 一 設計模型

經過領域模型建模,物件導向初具雛形。但領域模型不能指導我們進行編碼工作。因為領域類是從用例模型中提煉出的反應業務領域的概念,不是真正意義上的軟體類。下一步,就該完成從領域類到軟體類的轉換。設計模型分為兩種 靜態模型和動態模型。靜態模型 描述系統包含的類,以及類的名稱,屬性名,方法名,類與類之間的關係...

第六章 曲線與曲面

1 乙個實體,幾個基準面,在基準面上花曲線,通過投影到實體的表面。投影曲線在實體另一側生成,而不是在靠近樣條曲線的一側生成。2 草圖到草圖 兩個草圖,生成的投影曲線是兩個草圖沿著各自的所在基準面進行拉伸而成的兩個拉伸曲面之間的交線。注意 兩個基準面一定要是相交的基準面 分割曲線有三種 輪廓 投影和交...

第六章 logistic回歸與最大熵模型

1 logistic回歸是統計學習中的經典分類方法。最大熵模型 最大熵是概率模型學習的乙個準則,將其推廣到分類問題得到最大熵模型。兩者都是對數線性模型。2 二項logstic分類模型 用於二類分布。多項 logstic分類模型 用於多類分布。3 最大熵模型 maximum entropy model...