資料探勘中的離群點檢測

2021-07-07 04:22:04 字數 1489 閱讀 8074

離群點的定義:離群點是乙個資料物件,它顯著不同於其他資料物件,好像它是被不同的機制產生一樣。

(1)客體的異常行為導致,如欺詐、入侵、不尋常的實驗結果

(2)資料測量和收集誤差

(3)資料變數內在特性引起,如顧客新的購買模式、基因突變等

離群點檢測的必要性:

(1)去除某些異常資料

(2)「乙個人的雜訊也許是其他人的訊號」,可以提供新的視角。

離群點檢測的應用領域:

(1)電信、保險、銀行中的欺詐檢測和風險分析

(2)醫學研究中藥品產生的異常反應

(3)稅務局檢測交稅記錄

(4)檢測誤差

離群點檢測的方法:

(1)基於統計的方法

假定正常的資料物件由乙個統計模型(如正太分布)產生,而不遵守該模型的資料是離群點。

應用基於統計分布的離群點檢測方法依賴於

a.資料分布

b.引數分布 (如均值或方差)

c.期望離群點的數量(置信度區間)

優點:離群點檢測的統計學方法具有堅實的基礎,建立在標準的統計學技術(如分布引數的估計)之上。

當存在充分的資料和所用的檢驗型別的知識時,這些檢驗可能非常有效。

缺點:

a.大部分統計方法是針對單個屬性的,對於多元資料技術方法較少。

b.在許多情況下,資料分布是未知的。

c.對於高維資料,很難估計真實的分布。

d.這類方法不適合混合型別資料

(2)基於距離的方法

基本思想:

乙個物件是離群的,如果它遠離大部分其它物件。

例如使用k近鄰進行檢測

優點:

基於距離的離群點檢測方案簡單

缺點:a檢測結果對引數k的選擇較敏感

b時間複雜度為o(n^2),難以用於大規模資料集,這裡n為資料集的規模;

c需要有關離群因子閾值或資料集中離群點個數的先驗知識,在實際使用中有時由於先驗知識的不足會造成一定的困難。

d因為它使用全域性閾值,不能處理不同密度區域的資料集。

(3)基於密度的方法

當資料集含有多種分布或資料集由不同密度子集混合而成時,資料是否離群不僅僅取決於它與周圍資料的距離大小,而且與鄰域內的密度狀況有關。

使用每個物件到第

k個最近鄰的距離

大小或給定鄰域範圍內其他物件的個數來

度量密度。

dbscan:是一種簡單的,基於密度的聚類演算法。本次實現中,dbscan使用了基於中心的方法。在基於中心的方法中,每個資料點的密度通過對以該點為中心eps的鄰域內的其他資料點的個數來度量。根據資料點的密度分為三類點:

(1)核心點

(2)邊界點

(3)離群點

(4)基於聚類的方法

把離群點檢測為不屬於任何簇的物件。

基於聚類的方法有兩個共同特點:

a.先採用特殊的

聚類演算法

處理輸入資料而得到聚類,再在聚類的基礎上來檢測離群點。

b.只需要掃瞄資料集若干次,效率較高,適用於大規模資料集。

資料探勘(五)離群點檢測

5 異常檢測方法 異常物件被稱作離群點。異常檢測也稱偏差檢測和例外挖掘。異常檢測的方法 1 基於模型的技術 首先建立乙個資料模型,異常是那些同模型不能完美擬合的物件 如果模型是簇的集合,則異常是不顯著屬於任何簇的物件 在使用回歸模型時,異常是相對遠離 值的物件。2 基於鄰近度的技術 通常可以在物件之...

資料探勘筆記十二 離群點檢測

離群點檢測或異常檢測,是找出其行為很不同於預期物件的過程。這種物件稱為離群點或異常。離群點檢測和聚類分析是兩項高度相關的任務。聚類發現資料集中的多數模式並據此組織資料,而離群點檢測則試圖捕獲顯著偏離多數模式的異常情況。離群點顯著不同於其他物件。離群點型別包括全域性離群點 情境離群點 集體離群點。離群...

離群點檢測梳理

描述 離群點檢測,是發現於大部分其他物件顯著不同的物件。大部分分析都會把這些差異資訊丟棄,然而在一些場景中,這些資料可能存在巨大的價值 應用範圍 詐騙檢測 貸款審批 電子商務 網路入侵 天氣預報等領域 分類標準 分類標準 分類描述 資料範圍 全域性離群點和區域性離群點 離群特徵是從區域性和總體來看的...