電商社交資料在大資料風控的應用實踐

2021-09-23 07:16:58 字數 3016 閱讀 2335

隨著普惠金融業務的深入,以及消費金融業務競爭的白熱化,針對信用白戶的風控顯得尤為重要。如何面向信用白戶進行快速有效的信用評級,臥龍大資料根據自己的實踐經驗,就電商、社交資料在風控上的應用價值與大家進行一些分享。

臥龍和眾多不同型別金融機構進行了資料匹配測試,下圖為各類金融機構的網際網路行為資料整體匹配情況。

可以看出:

傳統的農商行主要面對線下人群,線上資料的匹配率很低,要利用電商社交資料做信用評估基本不可行,利用大資料引流獲客倒是乙個值得關注的方向;

對於大型股份制銀行以及消費金融公司特別是網貸平台,資料匹配率可以達到50%及以上,具有較大的大資料風控分析潛力。

基於電商和社交資料,我們依照傳統的反欺詐和信用評估兩個方向進行分析體系構建,也得到了一些很有意思的分析結論:

(1) 電商資料反欺詐

總所周知,在某寶平台,上至豪宅別墅下至鐵釘牙籤,尤其是各種線下服務,除了吸毒犯罪,幾乎沒有不能賣的,正是這種特性給了我們很大的分析空間。

下面是我們獲取到的一批典型案例:

根據我們對一批使用者的網際網路行為特徵進行跟蹤,發現了一些很有趣的特徵。建模分析過程如圖所示:

1、老賴客群:

2、多頭借貸:

3、黑產中介:

這批資料通過分析發現很多並不在傳統的多頭借貸、網貸黑名單資料庫當中,可以作為黑名單庫的乙個補充,同時在幾家合作公司測試也得到良好反饋。

(2)社交資料反欺詐

社交領域資料是另外乙個比較有趣的話題,除了直接關注貸款類、涉黑類話題的使用者,我們通過圖資料庫、pagerank演算法等社交分析工具找到一批刷單刷帖使用者。

具體過程如下:

這中間最有意思的就是號碼的重疊度,現有公布的的黑產名單與我們分析的社交刷單刷帖灰名單使用者有極大的重疊度,結論就是:物盡其用!實名制的普及帶來的是號碼資源稀缺,最大化價值利用是黑產平台的主要特點,這也給我們基於大資料的反欺詐提供了線索。

信用評估一直是金融領域的重中之重。在介紹臥龍電商和社交資料的信用評估領域應用時,先普及幾個基本知識。

(1) 模型評估維度

(2) 模型特徵

機器學習法的經典案例就是使用pagerank計算微博使用者的影響力,一般pagerank值越大,影響力越高,使用者失信的可能性也就越小。另外比如使用標籤擴散法,通過黑名單庫計算相應的使用者灰名單概率權重特徵。這些特徵iv值(即information value,資訊價值)一般都在0.1以上。下圖為pagerank分段值在大額借貸和小額借貸中違約率中的關係。

pagerank得分不是越高風險越小,還需要根據其貸款產品進行區分,大額貸款(5萬以上),越是高分使用者,逾期違約可能性越大;小額貸款(5萬及以下)則剛好相反。

通過業務經驗以及機器學習方法,考慮購物品類的情況下,我們總共構造了3萬多個指標,下圖為我們篩選指標的一般流程:

下圖為特徵在樣本中的空置率表現。可以看出很大一部分特徵都有缺失,這是網際網路資料的一大特點,也是目前最大的挑戰。我們通過一定的閾值過濾掉部分特別稀疏的特徵。

下圖為我們挑選的50個特徵iv值分布情況。相比銀行信用卡等特徵會偏弱一點(我們測試基於銀行信用卡流水構造的特徵,通常iv值能到0.4左右),但也是不可多得的良好特徵變數。

在有效特徵中數碼配件、手機配件、零食、男女內衣類目等類目特徵iv值較高。這種不對外顯露的類目,能很好的區分乙個人的消費水平。

(3)模型演算法

傳統的評分卡一般採用邏輯回歸,因為這類模型可解釋性強,便於溝通交流以及上級部門的監管。但我們採用的是可解釋性雖然一般,但效能更強、效果更好的決策樹模型。

模型架構圖:

ks值:

通過電商以及社交資料,模型的ks值達到0.28,再加上傳統貸款的申請表裡的使用者基本資訊、資產資訊授權資訊,最終的建模ks效果達到0.36。

1.電商社交資料適合線上行為活躍的群體,尤其是適合有場景使用者,比如3c數碼、醫美、教育等消費分期領域。對線上行為特別稀疏的傳統的線下人群,要利用電商社交資料做徵信評估基本不可行。

2.特徵不是越多越好,低值的特徵多了反而降低模型整體的效果。並且特徵越多,模型的可解釋性分析困難越大,所以優質特徵的篩選必不可少。

3.電商和社交資料用來做信用評估建模的效果不錯,但是達不到直接使用的效果,因此電商和社交資料需要和其他資料配合使用,才能發揮最大的價值。

4.電商和社交資料在反欺詐領域的應用來得比信用評估更直接。臥龍識別出的異常購物記錄和敏感行為使用者壞賬率比正常客戶要高4.7倍。

大資料風控在信貸行業的應用

大資料風控是基於龐大的資料通過技術方式構建模型對借款人進行風險控制和風險提示,風控的目的是對好壞使用者進行識別從而降低損失,對使用者資質進行分層從而獲取更大的利潤。目前,大資料風控主要圍繞以下幾個方面展開 1.驗證申請人身份 對申請人身份 運營商 銀行卡 學歷等方面的資訊進行核驗,呼叫活體識別,身份...

消費金融大資料風控架構

1.1 信用風險 根據銀行業的風險理論,信用風險是指借款人因各種原因未能及時 足額償還債權人或銀行貸款而違約的可能性。信用風險的風控重點在於,甄別客戶違約的原因究竟是還款能力,還是還款意願問題。如果客戶真的由於各方面的原因,暫時不具備還款能力,這是概率問題。即使發生了,處置起來也不會有什麼損失。而如...

攔截 資料 企業大資料風控實踐

接觸風控時間很短 大概2個月 目前見解可能仍較淺,結合實際經驗簡單總結 依舊只講方法不展開具體方案 不對或者不專業的地方歡迎指正。網際網路風控都是基於大資料,屬於資料應用層。企業中風控的核心價值在於識別 攔截作弊和降低作弊機率,尤其是和錢直接相關的欺詐行為 具體要做哪些和優先順序還是要結合實際業務場...