異常檢測演算法 Isolation Forest

iforest （isolation forest）是由liu et al. [1] 提出來的基於二叉樹的ensemble異常檢測演算法，具有效果好、訓練快（線性複雜度）等特點。

iforest為聚類演算法，不需要標記資料訓練。首先給出幾個定義：

iforest的基本思想非常簡單：完成異常點的isolation所需的劃分數大於正常樣本點（非異常）。如下圖所示：

\(x_i\)樣本點的isolation需要大概12次劃分，而異常點\(x_0\)指需要4次左右。因此，我們可以根據劃分次數來區分是否為異常點。但是，如何建模呢？我們容易想到：劃分對應於決策樹中節點**，那麼劃分次數即為從決策樹的根節點到葉子節點所經歷的邊數，稱之為路徑長度（path length）。假設樣本集合共有\(n\)個樣本點，對於二叉查詢樹（binary search tree, bst），則查詢失敗的平均路徑長度為

\[ c(n) = 2h(n-1) -(2(n-1)/n) \]

其中，\(h(i)\)為harmonic number，可估計為\(\ln (i) + 0.5772156649\)。那麼，可建模anomaly score：

\[ s(x,n) = 2^} \]

其中，\(h(x)\)為樣本點\(x\)的路徑長度，\(e(h(x))\)為iforest的多棵樹中樣本點\(x\)的路徑長度的期望。特別地，

當\(s\)值越高（接近於1），則表明該點越可能為異常點。若所有的樣本點的\(s\)值都在0.5左右，則說明該樣本集合沒有異常點。

iforest採用二叉決策樹來劃分樣本空間，每一次劃分都是隨機選取乙個屬性值來做，具體流程如下：

停止**條件：

為了避免錯檢（swamping）與漏檢（masking），在訓練每棵樹的時候，為了更好地區分，不會拿全量樣本，而會sub-sampling樣本集合。iforest的訓練流程如下：

sklearn給出了iforest與其他異常檢測演算法的比較。

[1] liu, fei tony, kai ming ting, and zhi-hua zhou. "isolation forest." data mining, 2008. icdm'08. eighth ieee international conference on. ieee, 2008.

異常檢測演算法 Isolation Forest

異常點檢測演算法

機器學習異常檢測演算法

內部威脅檢測之異常檢測演算法

異常檢測演算法 Isolation Forest

異常點檢測演算法

機器學習 異常檢測演算法

內部威脅檢測之異常檢測演算法

相關推薦

機器學習異常檢測演算法