基於大資料聚類社群的作弊使用者發現方法

規則的方法主要是，我們在裝置，ip，使用者基礎資訊，使用者行為資訊等維度組合構建使用者的風控畫像，然後開發規則引擎，制定閾值，過濾出超過閾值的異常使用者。但只通過規則的方法往往是不夠的，大量的使用者單從個體上看看不出多少異常，但如果上公升乙個層次，從社群的整體角度去分析，就會發現使用者的很多相似之處。

就像我們之前文章說的壞人往往是扎堆的，物以類聚，人以群分，而且黑產想達到一定規模，肯定會借助作弊裝置，指令碼，機器等手段，機器的行為一般都有一些相似性，我們就可以利用這些相似性對使用者進行聚類分析，所以除了規則的方法外，我們還可以用機器學習的方法將具有相似行為的使用者進行聚類，然後求出類簇的top n相似特徵，檢視是否可疑，比如裝置是否相似，行為是否相似，基本資訊，賬號等是否相似，通過機器學習的方法，我們能找出很多規則沒法判定的異常使用者。

聚類就是把相似的使用者聚在一起，一般的方法就是計算兩個使用者特徵向量的相似度，這就遇到了第乙個問題，對於大量使用者來說，兩兩使用者計算相似度計算量是非常可怕的，比如50萬使用者兩兩計算相似度，總共要計算50w * 50w =2500億次，這計算量就太大了，如果使用者量再大點根本無法計算。對於這種情況，人們一般會利用區域性敏感雜湊等優化演算法將資料進行降維，然後通過雜湊把相似的使用者盡可能的放到同乙個桶裡，最後再對同乙個桶裡的資料進行兩兩計算，這樣計算量就小很多了。

下圖是區域性敏感雜湊演算法的乙個示意圖，普通的雜湊演算法是盡量將資料打散到不同的桶裡，達到減少碰撞的目的，但區域性敏感雜湊旨在將相似的使用者放到相同的桶裡。spark的mllib庫里也提供了lsh區域性敏感雜湊演算法的實現，有興趣的朋友可以自行檢視。

不過我們在用spark lsh跑資料的過程中，遇到了每次都是最後幾個task特別緩慢的情況，可能跟資料傾斜或cpu計算能力不足有關，多次除錯都沒有太好的效果，又限於資源有限，只能另想別的方法，忽然想到我們之前已經按師徒關係生成的社群，本身就是一種把相似使用者放到同乙個桶裡的操作，而且我們根據師徒關係構建連通圖得到的社群應該是已經很好的把有可能是乙個團夥的人聚到了一起，這樣的話，只需對每個社群進行相似度計算就可以了。

計算相似度的方法有多種，像歐氏距離，漢明距離，余弦相似度，jaccard 係數等都是常用的度量方法，但鑑於我們提取的使用者特徵既有數值型，又有字元型，而且使用者特徵維度一樣，我們想通過定義使用者有多少個共同特徵就判為相似的邏輯，所以我們選擇了乙個比較簡單的f，即對比兩使用者特徵陣列相同特徵數，滿足閾值即為相似。

不同社群使用者數

上圖是我們根據師徒關係生成的不同社群及社群人數，下圖為我們基於這些社群，分別計算出的社群內相似使用者及使用者的相似特徵。

從上圖可以看出這些相似使用者，有些社群全部是同乙個手機型號，並且開機時間相同，手機一直處於充電狀態，師徒高度集中等等，這些都是比較可疑的使用者，需要風控人員重點分析。

至此，我們通過社群相似度計算實現了乙個簡單的風控聚類模型，基於這個模型找出了一些相似使用者，而且我們可以增加更多的使用者特徵，調節模型閾值來達到更好的風控效果。後面我們還計畫給每個特徵定義權重，這樣就可以對社群進行打分，進而可以更直觀的判斷社群的優劣與否。

定義特徵權重如下

打分規則

目前相似社群風控分數打分規則為：

特徵佔比大於等於50%的特徵為該相似社群的相似特徵；

相似社群風控分數 = 相似特徵佔比乘以特徵權重的累加和

如果存在權重大於等於10的相似特徵，相似社群風控分數要再加上使用者數mod 100，即每100使用者加1分

比如下面為相似社群的使用者數和相似特徵佔比

778 //相似社群使用者數

72% of 'masterid' is '599aa668c0d9db00014239e7', //權重為5

53% of 'battery_consumption' is '100' //權重為10

//計算相似社群風控分數如下

score = 0.972 + 0.725 + 0.5310 + (778 mod 100) 1 = 17.84

查詢結果表如下

基於大資料聚類社群的作弊使用者發現方法

基於KMeans聚類演算法進行簡單的資料分類

基於大資料的使用者畫像構建（理論篇）

資料應用案例基於使用者畫像的騰訊大資料防刷架構

基於大資料聚類社群的作弊使用者發現方法

基於KMeans聚類演算法進行簡單的資料分類

基於大資料的使用者畫像構建（理論篇）

資料應用案例 基於使用者畫像的騰訊大資料防刷架構

相關推薦

資料應用案例基於使用者畫像的騰訊大資料防刷架構