特徵工程 異常值

2021-10-09 17:59:20 字數 916 閱讀 9224

3 sigma法:

正態分佈關於均值μ對稱,數值分布在(μ-σ,μ+σ)中的概率為0.6827,數值分布在(μ-3σ,μ+3σ)中的概率為0.9973。也就是說只有0.3%的資料會落在均值的±3σ之外,這是乙個小概率事件。

箱型圖法:

正態分佈的引數μ和σ易受到個別異常值的影響,從而影響判定的有效性,因此產生了箱型圖法。iqr,即四分位間距q3-q1。(q1, q3)涵蓋了資料分布最中間的50%的資料,具有穩健性。資料落在 (q1-1.5*iqr, q3+1.5*iqr) 範圍內,則認為是正常值,在此範圍之外的即為異常值。

基於聚類法:

如果該物件不強屬於任何簇,那麼該物件屬於離群點。 (離群點對初始聚類的影響:如果通過聚類檢測離群點,則由於離群點影響聚類,存在乙個問題:結構是否有效這也是k-means演算法的缺點,對離群點敏感)

基於近鄰度法:

乙個物件的離群點得分由到它的k-最近鄰(knn)的距離給定。

缺點:需要o(m2)時間,大資料集不適用;

對引數的選擇也是敏感的:k太小,則少量的鄰近離群點可能導致較低的離群點得分;k太大,則點數少於k的簇中所有的物件可能都成了離群點。

不能處理具有不同密度區域的資料集,因為它使用全域性閾值,不能考慮這種密度的變化。

基於密度法:

從基於密度的觀點來說,離群點是在低密度區域中的物件。密度通常用鄰近度定義。一種常用的定義密度的方法是,定義密度為到k個最近鄰的平均距離的倒數。如果該距離小,則密度高,反之亦然。另一種密度定義是使用dbscan聚類演算法使用的密度定義,即乙個物件周圍的密度等於該物件指定距離d內物件的個數。

描述性統計+經驗法:

異常值處理

簡單來說,即在資料集中存在不合理的值,又稱離群點。我們舉個例子,做客戶分析,發現客戶的年平均收入是80萬美元。但是,有兩個客戶的年收入是4美元和420萬美元。這兩個客戶的年收入明顯不同於其他人,那這兩個觀察結果將被視為異常值。每當我們遇到異常值時,處理這些異常值的理想方法就是找出引起這些異常值的原因...

Python 異常值分析

import pandas as pd catering sale data2.xls 餐飲資料 data pd.read excel catering sale,index col u 日期 讀取資料,指定 日期 列為索引列 import matplotlib.pyplot as plt 匯入影象...

異常值的處理

最近看到資料分析師秋招時關於異常值處理的問題,小白上網搜了以下,特在此做一下總結。何為異常值處理,小白要分異常值和處理兩步來介紹。異常值 對整體樣本資料結構表達時,通常抓住整體樣本一般性的性質,而在這些性質上與樣本整體表達不一致的點,稱其為異常點。異常值有好有壞,我們可以疾病 信用欺詐,網路攻擊等。...