資料應用案例基於機器學習的web異常檢測

0. 背景：

a. 硬規則的異常檢測容易被黑客繞過，並且無法應對0day攻擊；同時規則構造和維護成本高。

b. 引入機器學習技術，但是web入侵樣本稀少，變化多樣，對模型訓練造成難度

1. 思路：基於profile的方法，對正常訪問日誌建模，與正常流量不符的視為一場流量

2. 方法：

1）基於統計學習模型：對正常流量進行數值化特徵提取，分布統計，進行異常檢測。特徵包括：

a. 引數value長度

b. 字元分布：字元出現的頻率是否符合理論分布

c. 引數缺失

d. 引數資料

e. 訪問頻率：單ip訪問頻率、總訪問頻率

f. 訪問時間間隔

2）基於文字分析的機器學習模型：參考下圖，綠色為正常流量，紅色為異常流量。可以看到正常流量滿足「數字_字母_數字」的模式。借鑑文字序列模式建模，比較成功的是基於hmm的序列建模。

3）基於單分類模型：由於我們只有大量白樣本，因此考慮採用單分類模型，學習單類樣本最小邊界，邊界外為異常值。單分類方法有：

a. one-class svm

b. 深度自編碼機

4）基於聚類模型

機器學習案例基於KNN手寫數字識別

演算法介紹之前已經介紹過,簡單來說，k nn可以看成有那麼一堆你已經知道分類的資料，然後當乙個新資料進入的時候，就開始跟訓練資料裡的每個點求距離，然後挑離這個訓練資料最近的k個點看看這幾個點屬於什麼型別，然後用少數服從多數的原則，給新資料歸類。演算法步驟演算法步驟 step.1 初始化距離為最...

資料應用案例基於使用者畫像的騰訊大資料防刷架構

1.羊毛黨角色 1 軟體製作團夥開發黑產工具，如註冊自動機刷單自動機等 2 簡訊代接平台實現簡訊的自動接髮 3 賬號團夥養各類賬號，通過轉賣賬號獲利 4 刷單團夥到各平台刷單，獲取優惠，然後通過第三方平台優惠套現 2.對抗刷單的三個主要環節 1 註冊環節識別虛假註冊的賬號 2 登入環...

機器學習入門應用機器學習的建議

機器入門系列文章中，我已經根據課程，介紹了許多演算法，比如線性回歸 logistic回歸，以及神經網路，等等。而針對具體的問題，我們採取了某種演算法，實現後，發現效果不好，需要改進。有些時候需要增加資料量，有些時候則不需要我們需要評估乙個模型的好壞，從而比較選出更優者或者根據模型出現的問題，提出...

資料應用案例 基於機器學習的web異常檢測

機器學習案例 基於KNN手寫數字識別

資料應用案例 基於使用者畫像的騰訊大資料防刷架構

機器學習入門 應用機器學習的建議

相關推薦

資料應用案例基於機器學習的web異常檢測

機器學習案例基於KNN手寫數字識別

資料應用案例基於使用者畫像的騰訊大資料防刷架構

機器學習入門應用機器學習的建議