特徵工程異常值

3 sigma法:

正態分佈關於均值μ對稱，數值分布在（μ-σ，μ+σ）中的概率為0.6827，數值分布在（μ-3σ，μ+3σ）中的概率為0.9973。也就是說只有0.3%的資料會落在均值的±3σ之外，這是乙個小概率事件。

箱型圖法：

正態分佈的引數μ和σ易受到個別異常值的影響，從而影響判定的有效性，因此產生了箱型圖法。iqr，即四分位間距q3-q1。(q1, q3)涵蓋了資料分布最中間的50%的資料，具有穩健性。資料落在 (q1-1.5*iqr, q3+1.5*iqr) 範圍內，則認為是正常值，在此範圍之外的即為異常值。

基於聚類法：

如果該物件不強屬於任何簇，那麼該物件屬於離群點。（離群點對初始聚類的影響：如果通過聚類檢測離群點，則由於離群點影響聚類，存在乙個問題：結構是否有效。這也是k-means演算法的缺點，對離群點敏感）

基於近鄰度法：

乙個物件的離群點得分由到它的k-最近鄰（knn）的距離給定。

缺點：需要o(m2)時間，大資料集不適用；

對引數的選擇也是敏感的：k太小，則少量的鄰近離群點可能導致較低的離群點得分；k太大，則點數少於k的簇中所有的物件可能都成了離群點。

不能處理具有不同密度區域的資料集，因為它使用全域性閾值，不能考慮這種密度的變化。

基於密度法：

從基於密度的觀點來說，離群點是在低密度區域中的物件。密度通常用鄰近度定義。一種常用的定義密度的方法是，定義密度為到k個最近鄰的平均距離的倒數。如果該距離小，則密度高，反之亦然。另一種密度定義是使用dbscan聚類演算法使用的密度定義，即乙個物件周圍的密度等於該物件指定距離d內物件的個數。

描述性統計+經驗法：

特徵工程 異常值