離群點檢測梳理

描述：離群點檢測，是發現於大部分其他物件顯著不同的物件。大部分分析都會把這些差異資訊丟棄，然而在一些場景中，這些資料可能存在巨大的價值

應用範圍：詐騙檢測；貸款審批；電子商務；網路入侵；天氣預報等領域

分類標準

分類描述

資料範圍

全域性離群點和區域性離群點

離群特徵是從區域性和總體來看的，可用二維座標分布圖顯示

資料型別

數值型類群點和分型別離群點

根據資料集的屬性型別進行劃分

屬性個數

一維離群點和多維離群點

乙個資料物件可能有乙個屬性或多個屬性

方法描述：一般是構建乙個概率分布模型，並計算物件符合該模型的概率，把具有低概率的物件視為離群點

評估方法：適用什麼分布模型；基於該分布模型來離群點的檢測

1.一元正態分佈中的離群點檢測

若隨機變數x的密度函式服從正態分佈函式，其中x服從整體分布n（μ，σ），引數μ為均值，σ為標準差

正態分佈中，資料物件出現在兩邊尾部的機會很小，因此可以將在尾部的資料是離群點。

一般落在3倍標準差中心區域外的概率僅有0.0027

2.混合模型的離群點檢測

理解：混合是一種特殊的統計模型，使用若干統計分布對資料建模。每乙個分布對應乙個簇，而每個分布的引數提供對應的描述，通常用中心和發散描述。

混合模型將資料看作從不同的概率分布得到的觀測值的集合。概率分布可以是任何分布。但是通常是多元正態分佈。

混合模型資料的產生過程：

給定幾個型別相同但引數不同的分布；

隨機選取乙個分布產生乙個物件；

重複上述步驟

對於混合模型，每個分布給乙個不同的組，即乙個不同的簇。使用統計方法，可了解對應書的分布引數，從而可以描述這些簇的分布，但混合模型只能給出具體物件屬於特定簇的概率

檢測的目標為：估計分布函式的引數，並最大化資料的總似然

在很多情況下，由於資料統計分布未知或沒有訓練資料可用，可考慮其他不需要建立模型的檢測方法

**方法描述：**通常可以在資料物件之間定義鄰近性度量，把遠離大部分點的物件視為離群點

評估方法：低維資料可做散點圖觀察；大資料不適用；對引數選擇敏感；具有全域性閾值，不能處理具有不同密度區域的資料集

方法描述:考慮資料集可能存在不同密度區域，基於密度的觀點分析，離群點是低密度區域中的物件；乙個物件的離群點得分是該物件周圍密度的逆

評分方法：給出物件是離群點的度量，使資料具有不同的區域也能很好地處理；多引數選擇比較困難

方法描述：

利用聚類檢測離群點的方法1-丟棄遠離其他簇的小簇；

更系統的方法2-聚類所有物件，然後評估離群點

評估方法：使用是高度有效的；演算法產生的簇的質量對該演算法產生的離群點的質量影響很大

1.丟棄遠離其他簇的小簇

描述：利用聚類檢測離群點的方法是丟棄遠離其他簇的小簇，通常可以簡化為丟棄小於某個最小閾值的所有簇。

要求：可和其他任何聚類技術一起使用；需要最小簇大小和小簇-其他簇之間距離的閾值；對簇個數的選擇高度敏感

2.基於原型的聚類

描述：更加系統的方法，首先聚類所有程度，然後評估物件屬於簇的程度，若屬於簇的程度小於給定閾值，可認為是離群點

評估物件到簇程度的方法：（1）度量物件到簇原型的距離，並用它作為該物件的離群點得分；（2）考慮到簇具有不同的密度，可以度量簇到原型簇的相對距離。，相對距離=點到質心的距離/簇中所有點到質心距離的中位數

離群點檢測方法 R語言單元序列離群點檢測

對於一組資料，要找到它的離群值，有很多方法。對於一組資料，要找到它的離群值，有很多方法。這裡在cran上蒐集了一些有趣而易用的離群點檢測包以供後續使用，基本每個r包都有自己的理論和實踐材料做支撐。cran package routliers cran.r project.org cran packa...

python離群點檢測例子異常點離群點檢測演算法

異常點離群點檢測演算法瀏覽次數 456 sklearn中關於異常檢測的方法主要有兩種 1 novelty detection 當訓練資料中沒有離群點，我們的目標是用訓練好的模型去檢測另外新發現的樣本 2 outlier detection 當訓練資料中包含離群點，模型訓練時要匹配訓練資料的中心樣...

資料探勘（五）離群點檢測

5 異常檢測方法異常物件被稱作離群點。異常檢測也稱偏差檢測和例外挖掘。異常檢測的方法 1 基於模型的技術首先建立乙個資料模型，異常是那些同模型不能完美擬合的物件如果模型是簇的集合，則異常是不顯著屬於任何簇的物件在使用回歸模型時，異常是相對遠離值的物件。2 基於鄰近度的技術通常可以在物件之...

離群點檢測梳理

離群點檢測方法 R語言單元序列離群點檢測

python離群點檢測例子 異常點 離群點檢測演算法

資料探勘（五）離群點檢測

相關推薦

python離群點檢測例子異常點離群點檢測演算法