資料應用案例 基於使用者畫像的騰訊大資料防刷架構

2021-08-20 10:14:12 字數 1386 閱讀 4823

1. 羊毛黨角色

1)軟體製作團夥:開發黑產工具,如註冊自動機、刷單自動機等

2)簡訊代接平台:實現簡訊的自動接髮

3)賬號**團夥:養各類賬號,通過轉賣賬號獲利

4)刷單團夥:到各平台刷單,獲取優惠,然後通過第三方平台**優惠套現

2. 對抗刷單的三個主要環節

1)註冊環節:識別虛假註冊的賬號

2)登入環節:提高虛假賬號的登入門檻,如驗證碼、語音驗證碼等

3)活動環節:

a. 驗證碼等降低刷單效率

b. 大幅度降低異常賬號的優惠力度

3. 風險學習引擎:對賬號進行風險評估

1)採用黑/白雙分類風險判定機制,減少對正常使用者的誤傷

a. 黑分類器判斷異常的概率,白分類器判斷屬於正常的概率

b. 如某個ip是惡意ip,但是如果這是大閘道器ip,上面可能會有一些正常使用者

2)矩陣式邏輯框架

a. 如果只用乙個模型建立分類器,那麼在面對不同的黑產時,可能出現某個邏輯誤傷大,另乙個邏輯不夠有效等

b. 針對不同賬號型別建立不同的分類器,然後用adaboost方法整合。這樣可以提高實際執行時的靈活性,比如某個平台虛假賬號集中在郵箱部分,策略上可以加大對郵箱賬號的打擊力度。同時拆成多個子問題可以不同考慮不同賬號型別之間的正負資料平衡性問題

c. 單個賬號型別中中,採用多個弱分類器bagging的方法整合

1)畫像維度:

a. 網路屬性:**ip、vpn ip、閘道器ip、伺服器ip

b. 地域屬性:國外ip、ip歸屬地、高危地區

2)舉例:識別**ip:

a. 反向探測技術:掃瞄ip是不是開通了80,8080等**伺服器經常開通的埠,顯然乙個普通的使用者ip不太可能開通如上的埠。

b. http頭部的x_forwarded_for:開通了http**的ip可以通過此法來識別是不是**ip;如果帶有xff資訊,該ip是**ip無疑。

c. keep-alive報文:如果帶有proxy-connection的keep-alive報文,該ip毫無疑問是**ip。

d. 檢視ip上埠:如果乙個ip有的埠大於10000,那麼該ip大多也存在問題,普通的家庭ip開這麼大的埠幾乎是不可能的。

通過業務建模,識別惡意ip,然後通過上述方法判斷是否是**ip

5. 實際使用

1)對於白使用者:正常訪問、下單、搶券

2)對於輕度惡意使用者:驗證碼

3)對於重度惡意使用者:語音驗證碼、人工核實、後台取消訂單等

6. 接入過程

基於大資料的使用者畫像構建(理論篇)

alan cooper 互動設計之父 最早提出了 persona 的概念 personas are a concrete representation of target users.persona 是真實使用者的虛擬代表,是建立在一系列真實資料 marketing data,usability d...

基於內容的電影推薦 使用者畫像

使用者畫像構建步驟 使用者畫像建立import pandas as pd import numpy as np from gensim.models import tfidfmodel from functools import reduce import collections from ppri...

使用者畫像應用中的常見誤區

之前對使用者畫像已經有兩篇部落格輸出,分別是一步一步認識使用者畫像和使用者畫像如何驗證正確性,這兩篇更多的是講解使用者畫像的過程性問題,在實際業務應用中可能遇到的誤區是本篇部落格主要的內容。1.畫像與業務場景關聯度不高 在 使用者畫像 概念之下,很多時候為了跟風而忘了使用的本質是為了什麼,因此在未明...