離群點檢測梳理

2021-10-17 08:58:55 字數 1982 閱讀 7459

描述:離群點檢測,是發現於大部分其他物件顯著不同的物件。大部分分析都會把這些差異資訊丟棄,然而在一些場景中,這些資料可能存在巨大的價值

應用範圍:詐騙檢測;貸款審批;電子商務;網路入侵;天氣預報等領域

分類標準

分類標準

分類描述

資料範圍

全域性離群點和區域性離群點

離群特徵是從區域性和總體來看的,可用二維座標分布圖顯示

資料型別

數值型類群點和分型別離群點

根據資料集的屬性型別進行劃分

屬性個數

一維離群點和多維離群點

乙個資料物件可能有乙個屬性或多個屬性

方法描述: 一般是構建乙個概率分布模型,並計算物件符合該模型的概率,把具有低概率的物件視為離群點

評估方法:適用什麼分布模型;基於該分布模型來離群點的檢測

1.一元正態分佈中的離群點檢測

若隨機變數x的密度函式服從正態分佈函式,其中x服從整體分布n(μ,σ),引數μ為均值,σ為標準差

正態分佈中,資料物件出現在兩邊尾部的機會很小,因此可以將在尾部的資料是離群點。

一般落在3倍標準差中心區域外的概率僅有0.0027

2.混合模型的離群點檢測

理解:混合是一種特殊的統計模型,使用若干統計分布對資料建模。每乙個分布對應乙個簇,而每個分布的引數提供對應的描述,通常用中心和發散描述。

混合模型將資料看作從不同的概率分布得到的觀測值的集合。概率分布可以是任何分布。但是通常是多元正態分佈。

混合模型資料的產生過程:

給定幾個型別相同但引數不同的分布;

隨機選取乙個分布產生乙個物件;

重複上述步驟

對於混合模型,每個分布給乙個不同的組,即乙個不同的簇。使用統計方法,可了解對應書的分布引數,從而可以描述這些簇的分布,但混合模型只能給出具體物件屬於特定簇的概率

檢測的目標為:估計分布函式的引數,並最大化資料的總似然

在很多情況下,由於資料統計分布未知或沒有訓練資料可用,可考慮其他不需要建立模型的檢測方法

**方法描述:**通常可以在資料物件之間定義鄰近性度量,把遠離大部分點的物件視為離群點

評估方法:低維資料可做散點圖觀察;大資料不適用;對引數選擇敏感;具有全域性閾值,不能處理具有不同密度區域的資料集

方法描述:考慮資料集可能存在不同密度區域,基於密度的觀點分析,離群點是低密度區域中的物件;乙個物件的離群點得分是該物件周圍密度的逆

評分方法:給出物件是離群點的度量,使資料具有不同的區域也能很好地處理;多引數選擇比較困難

方法描述:

利用聚類檢測離群點的方法1-丟棄遠離其他簇的小簇;

更系統的方法2-聚類所有物件,然後評估離群點

評估方法:使用是高度有效的;演算法產生的簇的質量對該演算法產生的離群點的質量影響很大

1.丟棄遠離其他簇的小簇

描述:利用聚類檢測離群點的方法是丟棄遠離其他簇的小簇,通常可以簡化為丟棄小於某個最小閾值的所有簇。

要求:可和其他任何聚類技術一起使用;需要最小簇大小和小簇-其他簇之間距離的閾值;對簇個數的選擇高度敏感

2.基於原型的聚類

描述:更加系統的方法,首先聚類所有程度,然後評估物件屬於簇的程度,若屬於簇的程度小於給定閾值,可認為是離群點

評估物件到簇程度的方法:(1)度量物件到簇原型的距離,並用它作為該物件的離群點得分;(2)考慮到簇具有不同的密度,可以度量簇到原型簇的相對距離。,相對距離=點到質心的距離/簇中所有點到質心距離的中位數

離群點檢測方法 R語言單元序列離群點檢測

對於一組資料,要找到它的離群值,有很多方法。對於一組資料,要找到它的離群值,有很多方法。這裡在cran上蒐集了一些有趣而易用的離群點檢測包以供後續使用,基本每個r包都有自己的理論和實踐材料做支撐。cran package routliers cran.r project.org cran packa...

python離群點檢測例子 異常點 離群點檢測演算法

異常點 離群點檢測演算法 瀏覽次數 456 sklearn中關於異常檢測的方法主要有兩種 1 novelty detection 當訓練資料中沒有離群點,我們的目標是用訓練好的模型去檢測另外新發現的樣本 2 outlier detection 當訓練資料中包含離群點,模型訓練時要匹配訓練資料的中心樣...

資料探勘(五)離群點檢測

5 異常檢測方法 異常物件被稱作離群點。異常檢測也稱偏差檢測和例外挖掘。異常檢測的方法 1 基於模型的技術 首先建立乙個資料模型,異常是那些同模型不能完美擬合的物件 如果模型是簇的集合,則異常是不顯著屬於任何簇的物件 在使用回歸模型時,異常是相對遠離 值的物件。2 基於鄰近度的技術 通常可以在物件之...