天池 金融風控資料探勘task1

2021-10-09 11:30:48 字數 644 閱讀 7279

1)混淆矩陣、2)準確率(accuracy)、精確率(precision)、召回率(recall)

3)f1指數、4)p-r曲線、5)auc(包圍的面積)、6)roc(真正例率和假正例率作為橫縱軸)

1)ks(kolmogorov-smirnov)

k-s曲線與roc曲線類似,不同在於

roc曲線將真正例率和假正例率作為橫縱軸

k-s曲線將真正例率和假正例率都作為縱軸,橫軸則由選定的閾值來充當。

公式如下:

ks = max(tpr - fpr)

ks不同代表的不同情況,一般情況ks值越大,模型的區分能力越強,但是也不是越大模型效果就越好,如果

ks過大,模型可能存在異常,所以當ks值過高可能需要檢查模型是否過擬合。以下為ks值對應的模型情況,

但此對應不是唯一的,只代表大致趨勢。

ks值<0.2,一般認為模型沒有區分能力。

ks值[0.2,0.3],模型具有一定區分能力,勉強可以接受

ks值[0.3,0.5],模型具有較強的區分能力。

ks值大於0.75,往往表示模型有異常。

除ks外還常用roc和auc

金融風控學習task1

其中有四種情況 1 若乙個例項是正類,並且被 為正類,即為真正類tp true positive 2 若乙個例項是正類,但是被 為負類,即為假負類fn false negative 3 若乙個例項是負類,但是被 為正類,即為假正類fp false positive 4 若乙個例項是負類,並且被 為負...

Task 1 金融風控 賽題理解

賽題以金融風控中的個人信貸為背景,要求選手根據貸款申請人的資料資訊 其是否有違約的可能,以此判斷是否通過此項貸款,這是乙個典型的分類問題。資料報括80w訓練集和40w測試集,包含47個變數,其中15個為匿名變數。提交結果為每個測試樣本是1的概率,也就是y為1的概率。評價方法為auc評估模型效果 越大...

金融風控 Task01

題目理解 通過這道賽題來引導大家走進金融風控資料競賽的世界,主要針對於於競賽新人進行自我練習 自我提高。指標 分類演算法常見的評估指標如下 1 混淆矩陣 confuse matrix 2 準確率 accuracy 3 精確率 precision 4 召回率 recall 5 f1 score 6 p...