異常值檢查與處理

2021-10-07 10:01:17 字數 1217 閱讀 4692

異常值,即在資料集中存在不合理的值,又稱離群點,如下所示:

對屬性值進行乙個描述性的統計,從而檢視哪些值是不合理的。比如:對待乙個人的身高,不可能說有人的身高出現3m等以上的;如果是能使用影象直接顯示資料的話,可以直觀的直接直觀的從中得出異常值

當資料服從正態分佈:

根據正態分佈的定義可知,距離平均值3δ之外的概率為 p(|x-μ|>3δ) <= 0.003 ,這屬於極小概率事件,在預設情況下我們可以認定,距離超過平均值3δ的樣本是不存在的。因此,當樣本距離平均值大於3δ,則認定該樣本為異常值。

當資料不服從正態分佈:

當資料不服從正態分佈,可以通過遠離平均距離多少倍的標準差來判定,多少倍的取值需要根據經驗和實際情況來決定。

箱型圖提供了乙個識別異常值的標準,即大於或小於箱型圖設定的上下界的數值即為異常值,箱型圖如下圖所示:

首先我們定義下上四分位下四分位

上四分位我們設為u,表示的是所有樣本中只有1/4的數值大於u 

同理,下四分位我們設為l,表示的是所有樣本中只有1/4的數值小於l

那麼,上下界又是什麼呢

我們設上四分位與下四分位的差值為iqr,即:iqr=u-l

那麼,上界為 u+1.5iqr下界為: l - 1.5iqr

箱型圖選取異常值比較客觀,在識別異常值方面有一定的優越性。

4、格拉布斯檢驗法

2馬氏距離法

下圖是方法步驟 

異常值的處理方法常用有四種:

1.刪除含有異常值的記錄

2.將異常值視為缺失值,交給缺失值處理方法來處理

3.用平均值來修正

4.不處理

參考

異常值處理

簡單來說,即在資料集中存在不合理的值,又稱離群點。我們舉個例子,做客戶分析,發現客戶的年平均收入是80萬美元。但是,有兩個客戶的年收入是4美元和420萬美元。這兩個客戶的年收入明顯不同於其他人,那這兩個觀察結果將被視為異常值。每當我們遇到異常值時,處理這些異常值的理想方法就是找出引起這些異常值的原因...

異常值的處理

最近看到資料分析師秋招時關於異常值處理的問題,小白上網搜了以下,特在此做一下總結。何為異常值處理,小白要分異常值和處理兩步來介紹。異常值 對整體樣本資料結構表達時,通常抓住整體樣本一般性的性質,而在這些性質上與樣本整體表達不一致的點,稱其為異常點。異常值有好有壞,我們可以疾病 信用欺詐,網路攻擊等。...

異常值的處理

原理3西格瑪準則,對一組資料計算處理後,可以得到乙個置信區間,在此區間之外的部分應該被視為異常值。3西格瑪 0.68 0.95 0.99。處理方法 箱線圖 上下兩邊出現的點視為異常值.pandas中提供boxplot 方法繪製箱型圖 a 直接刪除 b 使用前後兩個邊界值的均值替換 c 不處理 d 視...