常用異常值檢測方法

2021-10-07 02:31:40 字數 688 閱讀 9627

方法 1—均方差

在統計學中,如果乙個資料分布近似正態,那麼大約 68% 的資料值會在均值的乙個標準差範圍內,大約 95% 會在兩個標準差範圍內,大約 99.7% 會在三個標準差範圍內。

方法 2—箱形圖

箱形圖是數字資料通過其四分位數形成的圖形化描述。這是一種非常簡單但有效的視覺化離群點的方法。考慮把上下觸鬚作為資料分布的邊界。任何高於上觸鬚或低於下觸鬚的資料點都可以認為是離群點或異常值。這裡是繪製箱形圖的**:

import seaborn as snsimport matplotlib.pyplot as pltsns.boxplot(data=random_data)

上述**繪製了下圖。正如你所看到的,任何高於 75 或低於-35 的點都被認為是離群點。結果和上面方法 1 非常接近。

箱形圖剖析:

四分位間距 (iqr) 的概念被用於構建箱形圖。iqr 是統計學中的乙個概念,通過將資料集分成四分位來衡量統計分散度和資料可變性。

簡單來說,任何資料集或任意一組觀測值都可以根據資料的值以及它們與整個資料集的比較情況被劃分為四個確定的間隔。四分位數會將資料分為三個點和四個區間。

四分位間距對定義離群點非常重要。它是第三個四分位數和第乙個四分位數的差 (iqr = q3 -q1)。在這種情況下,離群點被定義為低於箱形圖下觸鬚(或 q1 1.5x iqr)或高於箱形圖上觸鬚(或 q3 + 1.5x iqr)的觀測值。

異常值檢測(Outlier Detection)

什麼是異常值?對於定性變數來說,異常值是出現次數非常少的類別 對於定量變數來說,異常值是明顯大於或小於其他觀測值的數值。異常值產生的原因 a.人為錯誤 在資料收集,記錄或輸入過程中導致的錯誤。c.實驗誤差 d.資料處理錯誤 某些操作或提取錯誤。e.抽樣錯誤 f.自然異常值 不是人為的 由於錯誤 導致...

R中異常值檢測

data1 complete.cases selectdata 布林判斷 true代表1,false代表0 sum complete.cases selectdata 完整資料200條 sum complete.cases selectdata 不完整資料1條 mean complete.cases...

機器學習 異常值檢測

在生產生活中,由於裝置的誤差或者人為操作失當,產品難免會出現錯誤。然後檢查錯誤對人來說又是乙個十分瑣碎的事情。利用機器學習進行異常值檢測可以讓人類擺脫檢錯的煩惱。sum limits m sum limits m p x prod limits n sigma j 2 異常檢測演算法是乙個非監督學習...