資料探勘中的離群點檢測

離群點的定義：離群點是乙個資料物件，它顯著不同於其他資料物件，好像它是被不同的機制產生一樣。

（1）客體的異常行為導致，如欺詐、入侵、不尋常的實驗結果

（2）資料測量和收集誤差

（3）資料變數內在特性引起，如顧客新的購買模式、基因突變等

離群點檢測的必要性：

（1）去除某些異常資料

（2）「乙個人的雜訊也許是其他人的訊號」，可以提供新的視角。

離群點檢測的應用領域：

（1）電信、保險、銀行中的欺詐檢測和風險分析

（2）醫學研究中藥品產生的異常反應

（3）稅務局檢測交稅記錄

（4）檢測誤差

離群點檢測的方法：

（1）基於統計的方法

假定正常的資料物件由乙個統計模型（如正太分布）產生，而不遵守該模型的資料是離群點。

應用基於統計分布的離群點檢測方法依賴於

a.資料分布

b.引數分布 (如均值或方差)

c.期望離群點的數量(置信度區間)

優點：離群點檢測的統計學方法具有堅實的基礎，建立在標準的統計學技術(如分布引數的估計)之上。

當存在充分的資料和所用的檢驗型別的知識時，這些檢驗可能非常有效。

缺點：

a.大部分統計方法是針對單個屬性的，對於多元資料技術方法較少。

b.在許多情況下,資料分布是未知的。

c.對於高維資料,很難估計真實的分布。

d.這類方法不適合混合型別資料

（2）基於距離的方法

基本思想：

乙個物件是離群的，如果它遠離大部分其它物件。

例如使用k近鄰進行檢測

優點：

基於距離的離群點檢測方案簡單

缺點：a檢測結果對引數k的選擇較敏感

b時間複雜度為o(n^2)，難以用於大規模資料集，這裡n為資料集的規模；

c需要有關離群因子閾值或資料集中離群點個數的先驗知識，在實際使用中有時由於先驗知識的不足會造成一定的困難。

d因為它使用全域性閾值，不能處理不同密度區域的資料集。

（3）基於密度的方法

當資料集含有多種分布或資料集由不同密度子集混合而成時，資料是否離群不僅僅取決於它與周圍資料的距離大小，而且與鄰域內的密度狀況有關。

使用每個物件到第

k個最近鄰的距離

大小或給定鄰域範圍內其他物件的個數來

度量密度。

dbscan：是一種簡單的，基於密度的聚類演算法。本次實現中，dbscan使用了基於中心的方法。在基於中心的方法中，每個資料點的密度通過對以該點為中心eps的鄰域內的其他資料點的個數來度量。根據資料點的密度分為三類點：

(1)核心點

(2)邊界點

(3)離群點

（4）基於聚類的方法

把離群點檢測為不屬於任何簇的物件。

基於聚類的方法有兩個共同特點：

a.先採用特殊的

聚類演算法

處理輸入資料而得到聚類，再在聚類的基礎上來檢測離群點。

b.只需要掃瞄資料集若干次，效率較高，適用於大規模資料集。

資料探勘（五）離群點檢測

5 異常檢測方法異常物件被稱作離群點。異常檢測也稱偏差檢測和例外挖掘。異常檢測的方法 1 基於模型的技術首先建立乙個資料模型，異常是那些同模型不能完美擬合的物件如果模型是簇的集合，則異常是不顯著屬於任何簇的物件在使用回歸模型時，異常是相對遠離值的物件。2 基於鄰近度的技術通常可以在物件之...

資料探勘筆記十二離群點檢測

離群點檢測或異常檢測，是找出其行為很不同於預期物件的過程。這種物件稱為離群點或異常。離群點檢測和聚類分析是兩項高度相關的任務。聚類發現資料集中的多數模式並據此組織資料，而離群點檢測則試圖捕獲顯著偏離多數模式的異常情況。離群點顯著不同於其他物件。離群點型別包括全域性離群點情境離群點集體離群點。離群...

離群點檢測梳理

描述離群點檢測，是發現於大部分其他物件顯著不同的物件。大部分分析都會把這些差異資訊丟棄，然而在一些場景中，這些資料可能存在巨大的價值應用範圍詐騙檢測貸款審批電子商務網路入侵天氣預報等領域分類標準分類標準分類描述資料範圍全域性離群點和區域性離群點離群特徵是從區域性和總體來看的...

資料探勘中的離群點檢測

資料探勘（五）離群點檢測

資料探勘筆記十二 離群點檢測

離群點檢測梳理

相關推薦

資料探勘筆記十二離群點檢測