異常檢測 第一部分

2021-10-14 15:21:11 字數 2598 閱讀 7945

異常檢測(outlier detection),顧名思義,是識別與正常資料不同的資料,與預期行為差異大的資料。

識別如信用卡欺詐,工業生產異常,網路流裡的異常(網路侵入)等問題,針對的是少數的事件。

異常檢測: 資料不平衡下的分類問題

點異常:指的是少數個體例項是異常的,大多數個體例項是正常的,例如正常人與病人的健康指標;

上下文異常:又稱上下文異常,指的是在特定情境下個體例項是異常的,在其他情境下都是正常的,例如在特定時間下的溫度突然上公升或下降,在特定場景中的快速信用卡交易;

群體異常:指的是在群體集合中的個體例項出現異常的情況,而該個體例項自身可能不是異常,例如社交網路中虛假賬號形成的集合作為群體異常子集,但子集中的個體節點可能與真實賬號一樣正常。

有監督:訓練集的正例和反例均有標籤

無監督:訓練集無標籤

半監督:在訓練集中只有單一類別(正常例項)的例項,沒有異常例項參與訓練

2.1.1 基於統計學的方法

統計學方法對資料的正常性做出假定。**它們假定正常的資料物件由乙個統計模型產生,而不遵守該模型的資料是異常點。**統計學方法的有效性高度依賴於對給定資料所做的統計模型假定是否成立。

異常檢測的統計學方法的一般思想是:學習乙個擬合給定資料集的生成模型,然後識別該模型低概率區域中的物件,把它們作為異常點。

即利用統計學方法建立乙個模型,然後考慮物件有多大可能符合該模型。

假定輸入資料集為

\, x^, ..., x^\}

,資料集中的樣本服從正態分佈,即x(i

)∼n(

μ,σ2

)x^\sim n(\mu, \sigma^2)

x(i)∼n

(μ,σ

2),我們可以根據樣本求出引數μ

\muμ和σ

\sigma

σ。μ =1

m∑i=

1mx(

i)\mu=\frac 1m\sum_^m x^

μ=m1​∑

i=1m

​x(i

) σ 2=

1m∑i

=1m(

x(i)

−μ)2

\sigma^2=\frac 1m\sum_^m (x^-\mu)^2

σ2=m1​

∑i=1

m​(x

(i)−

μ)22.1.2 線性模型

典型的如pca方法,principle component analysis是主成分分析,簡稱pca。它的應用場景是對資料集進行降維。降維後的資料能夠最大程度地保留原始資料的特徵(以資料協方差為衡量標準)。

pca的原理是通過構造乙個新的特徵空間,把原資料對映到這個新的低維空間裡。pca可以提高資料的計算效能,並且緩解"高維災難"。

2.1.3 基於相似度的方法

這類演算法適用於資料點的聚集程度高、離群點較少的情況。同時,因為相似度演算法通常需要對每乙個資料分別進行相應計算,所以這類演算法通常計算量大,不太適用於資料量大、維度高的資料。

基於相似度的檢測方法大致可以分為三類:

整合是提高資料探勘演算法精度的常用方法。整合方法將多個演算法或多個基檢測器的輸出結合起來。其基本思想是一些演算法在某些子集上表現很好,一些演算法在其他子集上表現很好,然後整合起來使得輸出更加魯棒。整合方法與基於子空間方法有著天然的相似性,子空間與不同的點集相關,而整合方法使用基檢測器來探索不同維度的子集,將這些基學習器集合起來。

常用的整合方法有feature bagging,孤立森林等。

**feature bagging **:

與bagging法類似,只是物件是feature。

孤立森林

孤立森林假設我們用乙個隨機超平面來切割資料空間,切一次可以生成兩個子空間。然後我們繼續用隨機超平面來切割每個子空間並迴圈,直到每個子空間只有乙個資料點為止。直觀上來講,那些具有高密度的簇需要被切很多次才會將其分離,而那些低密度的點很快就被單獨分配到乙個子空間了。孤立森林認為這些很快被孤立的點就是異常點。

用四個樣本做簡單直觀的理解,d是最早被孤立出來的,所以d最有可能是異常。

在有標籤的情況下,可以使用樹模型(gbdt,xgboost等)進行分類,缺點是異常檢測場景下資料標籤是不均衡的,但是利用機器學習演算法的好處是可以構造不同特徵。

scikit-learn:

scikit-learn是乙個python語言的開源機器學習庫。它具有各種分類,回歸和聚類演算法。也包含了一些異常檢測演算法,例如lof和孤立森林。

官網:pyod:

**python outlier detection(pyod)**是當下最流行的python異常檢測工具庫,其主要亮點包括:

​ ——

Axure RP 第一部分

axure rp是乙個專業的快速原型設計工具。axure 發音 ack sure 代表美國axure公司 rp則是rapid prototyping 快速原型 的縮寫。axure rp是美國axure software solution公司旗艦產品,是乙個專業的快速原型設計工具,讓負責定義需求和規格...

第一部分 初識Solr

第一章 solr簡介 這章主要包括內容 這本書講述nosql技術,apache solr 像它的非關係模式兄弟一樣,針對於某些問題進行了優化。特別的,solr在處理企業級大量資料 及時搜尋 文字資料 返回相關性結果等方面進行了很大優化。這裡說的只是冰山一角,讓我們從下面幾方面來進行詳細敘說 solr...

css排雷第一部分

import url basic.css warning urgent plant moons plant moons 1 a href span title feature lang en 選出屬性等於lang或者以lang開頭的所有元素。選擇h1 strong 可以解釋為選擇h1字元素中的所有s...