孤立森林實現孤立森林演算法介紹，這次終於看懂了

孤立森林演算法應用於網路安全中的攻擊檢測，金融交易欺詐檢測，疾病偵測，和雜訊資料過濾等。

1. 孤立森林簡介

iforest(isolationforest)孤立森林是乙個基於ensemble 的快速異常檢測方法，具有線性時間複雜度和高精準度，是符合大資料處理要求的state-of-the-art演算法。

iforest 適用於連續資料的異常檢測，將異常定義為「容易被孤立的離群點」，可以理解為分布稀疏且離密度高的群體較遠的點。用統計學來解釋，在資料空間裡面，分布稀疏的區域表示資料發生在此區域的概率很低，因而可以認為落在這些區域裡的資料是異常的。

iforest 即不用定義數學模型也不需要有標記的訓練。對於如何查詢哪些點是否容易被孤立，iforest 使用了一套非常高效的策略。

假設我們用乙個隨機超平面來切割資料空間, 切一次可以生成兩個子空間。之後我們再繼續用乙個隨機超平面來切割每個子空間，迴圈下去，直到每子空間裡面只有乙個資料點為止。直觀上來講，我們可以發現那些密度很高的簇是可以被切很多次才會停止切割，但是那些密度很低的點很容易很早的就停到乙個子空間了。

怎麼來切這個資料空間是iforest的設計核心思想，這裡僅介紹最基本的方法。由於切割是隨機的，所以需要用ensemble的方法來得到乙個收斂值(蒙特卡洛方法)，即反覆從頭開始切，然後平均每次切的結果。iforest由t個itree(isolation tree)孤立樹組成，每個itree

是乙個二叉樹結構，其實現步驟如下：

1. 從訓練資料中隨機選擇ψ個點樣本點作為子樣本，放入樹的根節點。

2. 隨機指定乙個維度，在當前節點資料中隨機產生乙個切割點p——切割點產生於當前節點資料中指定維度的最大值和最小值之間。

3. 以此切割點生成了乙個超平面，然後將當前節點資料空間劃分為2 個子空間：把指定維度裡小於p的資料放在當前節點的左邊，把大於等於p的資料放在當前節點的右邊。

4. 在子節點中遞迴步驟2 和3，不斷構造新的子節點，直到子節點中只有乙個資料(無法再繼續切割)或子節點已到達限定高度。

獲得t個itree之後，iforest訓練就結束，然後我們可以用生成的iforest來評估測試資料了。對於乙個訓練資料x，我們令其遍歷每一棵itree，然後計算x 最終落在每個樹第幾層(x在樹的高度)。然後我們可以得出x在每棵樹的高度平均值。獲得每個測試資料的高度平均值後，我們可以設定乙個閾值(邊界值)，高度平均值低於此閾值的測試資料即為異常。也就是說異常在這些樹中只有很短的平均高度。【推薦了解黑馬程式設計師大資料課程】

b 和c 的高度為3，a的高度是2，d的高度是1。可以看到d 最有可能是異常，因為其最早就被孤立(isolated)了。

3. 演算法建模3.1 引數設定

(1)n_estimators：int，可選(預設值= 100)，集合中的基本估計量的數量

(2)max_samples：int 或float，optional(default =「auto」)

從x 中抽取的樣本數量，以訓練每個基本估計量。

•如果為int，則繪製max_samples 取樣。

•如果為float，則繪製max_samples * x.shape [0]個取樣。

•如果是「auto」，那麼max_samples = min(256，n_samples)。

•如果max_samples 大於提供的樣本數量，則所有樣本都將用於所有樹木(不進行取樣)。

(3)contamination：float(0.，0.5)，可選(預設值= 0.1)

(4)資料集的contamination 量，即資料集中異常值的比例。在擬合時用於定義決策函式的閾值。

3.2 **實戰

**實現：

import pandas as pdimport numpy as npfrom sklearn.ensemble import isolationforest#todo:孤立森林建模#1. 生成訓練資料rng = np.random.randomstate(42)x = 0.3 * rng.randn(100, 2) #生成100 行，2 列x_train = np.r_[x + 2, x - 2]print(x_train)# 產生一些異常資料x_outliers = rng.uniform(low=-4, high=4, size=(20, 2))iforest= isolationforest(contamination=0.1)iforest = iforest.fit(x_train)#**pred = iforest.predict(x_outliers)print(pred)# [-1 1 -1 -1 -1 -1 -1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1]#-1 為異常值1 表示正常值

**解釋：

孤立森林實現孤立森林演算法介紹，這次終於看懂了

孤立森林實現孤立森林演算法介紹，這次終於看懂了！

孤立森林 Isolation Forest

周志華孤立森林Isolation Forest

孤立森林 實現 孤立森林演算法介紹，這次終於看懂了

孤立森林 實現 孤立森林演算法介紹，這次終於看懂了！

孤立森林 Isolation Forest

周志華 孤立森林Isolation Forest

相關推薦

孤立森林實現孤立森林演算法介紹，這次終於看懂了

孤立森林實現孤立森林演算法介紹，這次終於看懂了！

周志華孤立森林Isolation Forest