拍拍貸魔鏡杯風控演算法大賽專案

2021-10-03 22:06:42 字數 1616 閱讀 2914

資料集構成:

三萬條已知標籤的訓練集,二萬條不知標籤的測試集

訓練集和測試集均有三種表:

master(主要的特徵表)log_info(使用者登陸資訊表),userupdate_info(客戶資訊修改更新表)

(1)

master

每一行代表乙個樣本(一筆成功成交借款),每個樣本包含200多個各類字段。

idx:每一筆貸款的unique key,可以與另外2個檔案裡的idx相匹配。

userinfo_*:借款人特徵字段

webloginfo_*:info網路行為字段

education_info*:學歷學籍字段

thirdparty_info_periodn_*:第三方資料時間段n欄位

socialnetwork_*:社交網路字段

linstinginfo:借款成交時間

target:違約標籤(1 = 貸款違約,0 = 正常還款)。

測試集裡不包含target欄位。

(2)

log_info

借款人的登陸資訊。

listinginfo:借款成交時間

loginfo1:操作**

loginfo2:操作類別

loginfo3:登陸時間

idx:每一筆貸款的unique key

(3)

userupdate_info

借款人修改資訊

listinginfo1:借款成交時間

userupdateinfo1:修改內容

userupdateinfo2:修改時間

idx:每一筆貸款的unique key

1)訓練資料和測試資料的合併(為了一起對特徵進行處理)

2)分型別變數的清洗

3)基於一些分型別變數和其他表資料(登陸資訊表、修改資訊表)的特徵衍生

4)數值型變數均值填充

5)最後對特徵工程後的資料集進行特徵篩選(lightgbm)

6)篩選完後進行建模**

7)通過調整lightgbm的引數,來提高模型的精度

8)模型融合(stacking)

1、kesci「魔鏡杯」風控演算法大賽銅獎解決方案

2、第四屆拍拍貸魔鏡杯冠軍方案分享   

3、拍拍貸金融風控案例(總結)  

4、拍拍貸魔鏡杯風控演算法大賽——基於lightgbm   

拍拍貸通過科技賦能金融 堅持資料驅動風控

作為借款撮合服務行業頭部平台之一的拍拍貸,已經穩定運營了超過十年。截至目前,拍拍貸的累計交易總額已經超過 1700 萬元,累計交易筆數超過 6000 萬。自成立之初,拍拍貸就將風控視為平台生命wmlywvetxy線,將出借人權益置於重要位置。並且拍拍貸在發展過程中一直是用資料說話 用資料管理 用資料...

科賽網 魔鏡杯「風控演算法比賽」賽後總結

3 特徵工程和特徵選擇 思路如下 第5步,特徵選擇。經過第四步的過程,會生成大量的特徵,裡面有優秀的特徵,也有無用的特徵。如果不加以選擇,反而會造成維度災難。特徵選擇的常用方法一般分為兩種,一種是係數型 考慮每一列特徵與label 之間的線性或者非線性關係。比如pearson能夠發現特徵間的線性關係...

現金貸風控決策引擎

一套完整的風控體系,在現金貸風控中,少不了是決策引擎,今天就說 一下風控決策引擎 優先順序 風控決策引擎是一堆風控規則的集合,通過不同的分支 層層規則的遞進關係進行運算。而既然是組合的概念,則在這些規則中,以什麼樣的順序與優先順序執行便額外重要。風控系統的作用在於識別絕對風控與標識相對風險,如果是絕...