P2P 深度透視 OMNIRank 平台風險量化

2021-09-11 09:32:22 字數 2294 閱讀 1517

這是之前參加某次比賽的成果,在此和大家分享,歡迎對資料感興趣的朋友多指點。

網際網路金融2023年進入國內,2023年得到了蓬勃的發展。與此同時,也出現了很多問題平台諸如提現困難、老闆跑路、停業等。截止2023年3月,在國內近4000家p2p平台中,問題平台比例已接近40%,投資者的資金難以得到保障。投資者希望知道自己的資金放在**最安全?投到哪個平台最有安全保障?這正是我們產品要解決的核心問題,客觀精確地對p2p平台進行風險量化

我們對出現問題的p2p平台做了分析,可能的原因歸結為兩條:

先天基因能力不足:如創始團隊缺乏過硬技術與運營經驗、註冊資金過少難以承受突發危機等;

後天發展存在問題:如過分抬高利率導致難以向投資者兌現、過度追求利潤而忽視了風險控制等。

下面是我們的系統架構,首先使用網路爬蟲獲取多源異構資料,解析得到結構化資料。通過資料清洗將結構化資料整理成我們的資料資產。在此基礎上我們使用文字處理、主題模型、知識圖譜、情感分析等技術分析資料資產,挖掘其中的內在規律。之後我們提出核心模型,omnirank,對各個p2p平台進行風險量化,形成知識供投資者決策。最後,我們將資料分析、模型量化的結果進行視覺化,為投資者提供友好的互動介面。

我們基於scrapy開發了爬蟲框架omnispider,它可以:

靈活配置:通過修改配置檔案即可新增新的任務或更新已有任務,無需重構**。

只需簡單的配置,既可以通過排程、爬取、解析、儲存模組在短時間內爬取海量的多源異構資料。

下圖是我們的資料清洗過程。我們對爬取的結構化資料進行了資料去重、空值處理、資料去噪、格式統

一、對齊融合。

我們對語義資訊、主題資訊進行整理,經過命名實體識別、關係抽取、開放域知識提取技術,形成了乙個包含1萬多個結點的知識圖譜。為了提供更快的查詢服務,我們將它存在圖資料庫中。投資者可以進行知識探索,更加全面的了解各平台、人員、職位、地理分布之間的聯絡。

經過以上資料資產的準備及探索分析,我們提出我們的核心模型omnirank,乙個對p2p平台進行風險量化,為投資者提供投資決策的模型。google開發了人工智慧alphago。它是乙個會下圍棋的人工智慧。它採用全域性特徵和區域性特徵結合的思想,主要方法是深度神經網路。

omnirank是乙個對p2p平台風險量化的人工智慧,它的本質是乙個深度神經網路。模型輸入5大類共118個特徵,包含全域性的靜態特徵、區域性的動態特徵。結合各個特徵特點及神經網路模型的優勢,我們設計了omnirank深度神經網路:

使用多層神經網路(mlp)處理靜態平台屬性特徵;

使用長短時記憶元(lstm)處理動態平台指標時間序列;

就像alphago可以進行自我對弈一樣,omnirank可以通過反饋迴路自我學習,不斷提公升模型的能力。

下圖展示了omnirank模型對平台風險量化的效果。我們在近半年的資料集上進行了驗證,使用兩個指標對模型效能評估:準確率和auc值。其中準確率表示模型把平台分類正確的比例;auc是模型對正負樣本區分程度的量化評估。準確率與auc值越高,表示模型效果越好。可以看到,半年來,模型對平台判斷的準確率與auc值呈上公升趨勢,並且在最近的乙個月(2023年4月)的評估中,準確率達0.85auc值達0.9以上

為了更直觀地呈現模型效果,我們展示了omnirank模型對正常平台和問題平台的風險辨識。omnirank對乙個平台評分越高,表示這個平台越可靠,風險越低。下圖是2023年4月對各個平台的評分分布,正常平台集中在1附近,問題平台集中在0附近,可見omnirank成功地將問題平台與正常平台區分開。

我們將omnirank與其他機器學習演算法,包括邏輯回歸(logistic regression)、隨機森林(random forest)、支援向量機(svm)進行了對比,對比結果如下圖所示。我們發現,比起其他模型,omnirank可以更加顯著地區分正常平台和問題平台,它具有更強的能力識別出問題平台。因此omnirank對平台風險的量化比傳統模型更加可靠。

omnirank是如何幫助投資者選擇投資平台的呢?我們每個月使用omnirank對平台風險進行量化**,並根據量化結果對平台排名,排名越靠前表示該平台下個月出現問題的概率越低。之後計算在不同排名區間的平台,在下個月實際出問題的比率。我們發現,半年來排名前100的平台沒有出現問題,這給投資者提供了乙個安全的投資區域。另外,區間越大,平台的平均利率越高,但同時也伴隨著更高的風險。投資者可以根據自己的自身情況,平衡風險與收益,選擇最適合自己的平台。

產品展示:zhanghonglun.cn/ppd/

玩資料,我們是認真的~

如果覺得文章不錯,不妨點一下左下方的喜歡~

認識P2P,利用P2P

是peer to peer的縮寫 好象還看到過文章說是point to point,我也不清楚,網上的資料也不清楚,鬱悶 peer在英語裡有 地位 能力等 同等者 同事 和 夥伴 等意義。這樣一來,p2p也就可以理解為 夥伴對夥伴 的意思,或稱為對等聯網。目前人們認為其在加強網路上人的交流 檔案交換...

P2P網路模型

1 靜態配置模型 靜態配置模型是一種相對靜態而簡單的對等點定位模型。在該模型中,每個對等點都確切地知道存在於其p2p 網路中其它對等點的位置以及它們所提供的共享資源內容。缺點 網路無法應付不能預知的隨機事件和臨時變更,比如對等點隨機進入和退出網路。優點 整個網路在外部攻擊面前表現得很穩固。2 動態配...

P2P路由演算法

p2p路由演算法 資源定位方法 dht distributed hash table 演算法 思想 每乙份資源都由一組關鍵字標示,系統對其中的每乙個關鍵字進行hash,根據hash的結果確定該關鍵字由哪個使用者負責儲存,使用者搜尋的同時,用同樣的演算法計算每乙個字的hash,再根據hash知道該關鍵...