task1 賽題理解

2021-10-09 11:58:09 字數 1461 閱讀 5867

task1 賽題理解

本次組隊學習的任務是典型的貸款違約問題,即通過所給的關與貸款者的各項字段特徵去判斷該客戶是否是潛在的違約客戶,這類題在各類風控問題中常常出現,因為不同銀行或機構所掌握的客戶資訊不同,每個特徵也不同,所以如何利用字段特徵,成為了是否能拿高分的關鍵因素

先來看一下題目簡介:

賽題以**使用者貸款是否違約為任務,該資料來自某信貸平台的貸款記錄,總資料量超過120w,包含47列變數資訊,其中15列為匿名變數。為了保證比賽的公平性,將會從中抽取80萬條作為訓練集,20萬條作為測試集a,20萬條作為測試集b

本題的各欄位意義如下

評分標準

評分標準是乙個比賽衡量選手能力的最直接指標,常見的評分標準有mse,auc等等,本次專案的標準是風控模擬賽的常客:auc評估模型效果

先來看看auc的定義:

auc(area under curve)被定義為 roc曲線 下與座標軸圍成的面積,顯然這個面積的數值不會大於1。

又由於roc曲線一般都處於y=x這條直線的上方,所以auc的取值範圍在0.5和1之間。auc越接近1.0,檢測方法真實性越高;

等於0.5時,則真實性最低,無應用價值。

這裡面涉及了很多概念,roc和auc,要弄懂這兩個,首先明白0,1這兩種標籤的意義

稱**類別為1的為positive(陽性),**類別為0的為negative(陰性)。

**正確的為true(真),**錯誤的為false(偽)。

由此得出矩陣

以上矩陣分為了四個類別

(1)若乙個例項是正類,並且被**為正類,即為真正類tp(true positive )

(2)若乙個例項是正類,但是被**為負類,即為假負類fn(false negative )

(3)若乙個例項是負類,但是被**為正類,即為假正類fp(false positive )

(4)若乙個例項是負類,並且被**為負類,即為真負類tn(true negative )

因此,roc曲線往往是下面這種圖

auc即曲線與橫座標fprate構成的面積,auc的計算方法同時考慮了分類器對於正例和負例的分類能力,在樣本不平衡的情況下,依然能夠對分類器作出合理的評價。

當然k-s曲線也常常用來做這種場景的評分標準,與roc曲線的區別如下

roc曲線將真正例率和假正例率作為橫縱軸

k-s曲線將真正例率和假正例率都作為縱軸,橫軸則由選定的閾值來充當。 公式如下: ks=max(tpr−fpr)ks=max(tpr−fpr) ks不同代表的不同情況,一般情況ks值越大,模型的區分能力越強,但是也不是越大模型效果就越好,如果ks過大,模型可能存在異常,所以當ks值過高可能需要檢查模型是否過擬合。以下為ks值對應的模型情況,但此對應不是唯一的,只代表大致趨勢。

ks值<0.2,一般認為模型沒有區分能力。

ks值[0.2,0.3],模型具有一定區分能力,勉強可以接受

ks值[0.3,0.5],模型具有較強的區分能力。

ks值大於0.75,往往表示模型有異常。

Task1 賽題理解

賽題是cv入門級賽題,通過街景字元識別來熟悉cv建模思路和競賽流程。目標為識別街景中的字元。資料集樣本展示如下 評價指標如下 主要考慮兩種思路 傳統cv思路 先將影象二值化處理,然後做傾斜校正,根據投影做字元切割,根據0 9的字元的特徵點與標準字元匹配來進行識別 深度學習思路 本題本質上是分類問題,...

Task1 賽題理解

鏈結 賽題資料由以下幾個部分構成 訓練集20w條樣本,測試集a包括5w條樣本,測試集b包括5w條樣本。為了預防選手人工標註測試集的情況,我們將比賽資料的文字按照字元級別進行了匿名處理。在資料集中標籤的對應的關係如下 評價標準為類別f1 score的均值,選手提交結果與實際測試集的類別進行對比,結果越...

Task1 賽題理解

1.賽題資料import pandas as pd import numpy as nptrain pd.read csv train.csv testa pd.read csv testa.csv print train data shape train.shape print testa dat...