金融風控學習task1

2021-10-09 11:01:25 字數 1562 閱讀 3017

其中有四種情況:

(1)若乙個例項是正類,並且被**為正類,即為真正類tp(true positive )

(2)若乙個例項是正類,但是被**為負類,即為假負類fn(false negative )

(3)若乙個例項是負類,但是被**為正類,即為假正類fp(false positive )

(4)若乙個例項是負類,並且被**為負類,即為真負類tn(true negative )

準確率(accuracy)

準確率是常用的乙個評價指標,但是不適合樣本不均衡的情況。

精確率(precision)又稱查準率,正確**為正樣本(tp)佔**為正樣本(tp+fp)的百分比。

召回率(recall)又稱為查全率,正確**為正樣本(tp)佔正樣本(tp+fn)的百分比。

f1 score:精確率和召回率是相互影響的,精確率公升高則召回率下降,召回率公升高則精確率下降,如果需要兼顧二者,就需 要精確率、召回率的結合f1 score。

p-r曲線(precision-recall curve) p-r曲線是描述精確率和召回率變化的曲線

roc(receiver operating characteristic)

roc空間將假正例率(fpr)定義為 x 軸,真正例率(tpr)定義為 y 軸。其中,tpr:在所有實際為正例的樣本中,被正確地判斷為正例之比率。fpr:在所有實際為負例的樣本中,被錯誤地判斷為正例之比率。

auc(area under curve)被定義為 roc曲線 下與座標軸圍成的面積,顯然這個面積的數值不會大於1。又由於 roc曲線一般都處於y=x這條直線的上方,所以auc的取值範圍在0.5和1之間。auc越接近1.0,檢測方法真實性越 高;等於0.5時,則真實性低,無應用價值。

ks(kolmogorov-smirnov)k-s曲線與roc曲線類似,不同在於: roc曲線將真正例率和假正例率作為橫縱軸 ; k-s曲線將真正例率和假正例率都作為縱軸,橫軸則由選定的閾值來充當。

最重要的是python已經有函式自己計算出了這些值或比率,輸入是真實值列表或陣列以及**值列表或陣列,再分別使用函式計算出它們,具體示例如下:

收穫:了解了一些評價標準,知道了這些函式及其用法。

天池 金融風控資料探勘task1

1 混淆矩陣 2 準確率 accuracy 精確率 precision 召回率 recall 3 f1指數 4 p r曲線 5 auc 包圍的面積 6 roc 真正例率和假正例率作為橫縱軸 1 ks kolmogorov smirnov k s曲線與roc曲線類似,不同在於 roc曲線將真正例率和假...

Task 1 金融風控 賽題理解

賽題以金融風控中的個人信貸為背景,要求選手根據貸款申請人的資料資訊 其是否有違約的可能,以此判斷是否通過此項貸款,這是乙個典型的分類問題。資料報括80w訓練集和40w測試集,包含47個變數,其中15個為匿名變數。提交結果為每個測試樣本是1的概率,也就是y為1的概率。評價方法為auc評估模型效果 越大...

金融風控 Task01

題目理解 通過這道賽題來引導大家走進金融風控資料競賽的世界,主要針對於於競賽新人進行自我練習 自我提高。指標 分類演算法常見的評估指標如下 1 混淆矩陣 confuse matrix 2 準確率 accuracy 3 精確率 precision 4 召回率 recall 5 f1 score 6 p...