孤立森林 Isolation Forest

前言

隨著機器學習近年來的流行，尤其是深度學習的火熱。機器學習演算法在很多領域的應用越來越普遍。最近，我在一家廣告公司做廣告點選反作弊演算法研究工作。想到了異常檢測演算法，並且上網調研發現有乙個演算法非常火爆，那就是本文要介紹的演算法 isolation forest，簡稱 iforest 。

南大周志華老師的團隊在2023年提出乙個異常檢測演算法isolation forest，在工業界很實用，演算法效果好，時間效率高，能有效處理高維資料和海量資料，這裡對這個演算法進行簡要總結。

1. itree的構造

提到森林，自然少不了樹，畢竟森林都是由樹構成的，看isolation forest（簡稱iforest）前，我們先來看看isolation tree（簡稱itree）是怎麼構成的。itree是一種隨機二叉樹，每個節點要麼有兩個女兒，要麼就是葉子節點，乙個孩子都沒有。給定一堆資料集d，這裡d的所有屬性都是連續型的變數，itree的構成過程如下：

1、隨機選擇乙個屬性attr。

2、隨機選擇該屬性的乙個值value。

3、根據attr對每條記錄進行分類，把attr小於value的記錄放在左女兒，把大於等於value的記錄放在右孩子。

4、然後遞迴的構造左女兒和右女兒，直到滿足以下條件：

1、傳入的資料集只有一條記錄或者多條一樣的記錄。

2、樹的高度達到了限定高度。

itree構建好了後，就可以對資料進行**啦。**的過程就是把測試記錄在itree上走一下，看測試記錄落在哪個葉子節點。

itree能有效檢測異常的假設是：異常點一般都是非常稀有的，在itree中會很快被劃分到葉子節點。

批註：異常點一般來說是稀疏的，因此可以用較少次劃分把它歸結到單獨的區域中。或者說只包含它的空間的面積較大。

因此可以用葉子節點到根節點的路徑h(x)長度來判斷一條記錄x是否是異常點。對於乙個包含n條記錄的資料集，其構造的樹的高度最小值為log(n)，最大值為n-1，**提到說用log(n)和n-1歸一化不能保證有界和不方便比較，用乙個稍微複雜一點的歸一化公式：

其中為尤拉常數。

s(x,n)就是記錄x在由n個樣本的訓練資料構成的itree的異常指數，s(x,n)取值範圍為[0,1]異常情況的判斷分以下幾種情況：

1、越接近1表示是異常點的可能性高；

2、越接近0表示是正常點的可能性比較高；

3、如果大部分的訓練樣本的s(x,n)都接近於0.5，說明整個資料集都沒有明顯的異常值。

由於是隨機選屬性，隨機選屬性值，一棵樹這麼隨便搞肯定是不靠譜，但是把多棵樹結合起來就變強大了。

2. iforest的構造

itree搞明白了，我們現在來看看iforest是怎麼構造的，給定乙個包含n條記錄的資料集d，如何構造乙個iforest。iforest和random forest的方法有些類似，都是隨機取樣一部分資料集去構造每一棵樹，保證不同樹之間的差異性，不過iforest與rf不同，取樣的資料量psi不需要等於n，可以遠遠小於n，**中提到取樣大小超過256效果就提公升不大了，並且越大還會造成計算時間的上的浪費，為什麼不像其他演算法一樣，資料越多效果越好呢，可以看看下面這兩個個圖：

左邊是原始資料，右邊是取樣了資料，藍色是正常樣本，紅色是異常樣本。可以看到，在取樣之前，正常樣本和異常樣本出現重疊，因此很難分開，但我們取樣之和，異常樣本和正常樣本可以明顯的分開。

除了限制取樣大小ψ以外，還要給每棵itree設定最大高度l=ceiling(log2ψ)，這是因為異常資料記錄都比較少，其路徑長度也比較低，而我們也只需要把正常記錄和異常記錄區分開來，因此只需要關心低於平均高度的部分就好，這樣演算法效率更高，不過這樣調整了後，後面可以看到計算h(x)需要一點點改進，先看iforest的偽**：

iforest構造好後，對測試進行**時，需要進行綜合每棵樹的結果，於是

e(h(x))表示記錄x在每棵樹的高度均值，另外h(x)計算需要改進，在生成葉節點時，演算法記錄了葉節點包含的記錄數量，這時候要用這個數量size估計一下平均高度，h(x)的計算方法如下：

3. 對高維資料的處理

在處理高維資料時，可以對演算法進行改進，取樣之後並不是把所有的屬性都用上，而是用峰度係數kurtosis挑選一些有價值的屬性，再進行itree的構造，這跟隨機森林就更像了，隨機選記錄，再隨機選屬性。

4. 只使用正常樣本

這個演算法本質上是乙個無監督學習，不需要資料的類標，有時候異常資料太少了，少到我們只捨得拿這幾個異常樣本進行測試，不能進行訓練，**提到只用正常樣本構建iforest也是可行的，效果有降低，但也還不錯，並可以通過適當調整取樣大小來提高效果。

5. 總結

（1） iforest具有線性時間複雜度。因為是ensemble的方法，所以可以用在含有海量資料的資料集上面。通常樹的數量越多，演算法越穩定。由於每棵樹都是互相獨立生成的，因此可以部署在大規模分布式系統上來加速運算。

（2） iforest不適用於特別高維的資料。由於每次切資料空間都是隨機選取乙個維度，建完樹後仍然有大量的維度資訊沒有被使用，導致演算法可靠性降低。高維空間還可能存在大量噪音維度或無關維度（irrelevant attributes），影響樹的構建。對這類資料，建議使用子空間異常檢測（subspace anomaly detection）技術。此外，切割平面預設是axis-parallel的，也可以隨機生成各種角度的切割平面，詳見「on detecting clustered anomalies using sciforest」。

（3） iforest僅對global anomaly 敏感，即全域性稀疏點敏感，不擅長處理區域性的相對稀疏點（local anomaly）。目前已有改進方法發表於pakdd，詳見「improving iforest with relative mass」。

（4） iforest推動了重心估計（mass estimation）理論發展，目前在分類聚類和異常檢測中都取得顯著效果，發表於各大頂級資料探勘會議和期刊（如sigkdd，icdm，ecml）。

**：

孤立森林 Isolation Forest

孤立森林實現孤立森林演算法介紹，這次終於看懂了！

孤立森林實現孤立森林演算法介紹，這次終於看懂了

周志華孤立森林Isolation Forest

孤立森林 Isolation Forest

孤立森林 實現 孤立森林演算法介紹，這次終於看懂了！

孤立森林 實現 孤立森林演算法介紹，這次終於看懂了

周志華 孤立森林Isolation Forest

相關推薦

孤立森林實現孤立森林演算法介紹，這次終於看懂了！

孤立森林實現孤立森林演算法介紹，這次終於看懂了

周志華孤立森林Isolation Forest