資料清洗中異常值如何處理(下)

2021-09-13 15:46:49 字數 931 閱讀 5374

第一我們給大家介紹的是基於模型檢測,具體操作就是先建立乙個資料模型,異常是那些同模型不能完美擬合的物件;如果模型是簇的集合,則異常是不顯著屬於任何簇的物件;在使用回歸模型時,異常是相對遠離**值的物件。而這個方法的優點就是有堅實的統計學理論基礎,當存在充分的資料和所用的檢驗型別的知識時,這些檢驗可能非常有效,當然,缺點就是對於多元資料,可用的選擇少一些,並且對於高維資料,這些檢測可能性很差。

第二就是基於距離檢測,通常可以在物件之間定義鄰近性度量,異常物件是那些遠離其他物件的物件。這種方法的優點就是簡單。缺點就是基於鄰近度的方法需要o(m2)時間,大資料集不適用。當然該方法對引數的選擇也是敏感的。同時不能處理具有不同密度區域的資料集,因為它使用全域性閾值,不能考慮這種密度的變化。

第三就就是基於密度,當乙個點的區域性密度顯著低於它的大部分近鄰時才將其分類為離群點。適合非均勻分布的資料。這種方法的優點就是給出了物件是離群點的定量度量,並且即使資料具有不同的區域也能夠很好的處理,同時與基於距離的方法一樣,這些方法必然具有o(m2)的時間複雜度。對於低維資料使用特定的資料結構可以達到o(mlogm)。而缺點就是引數選擇困難。雖然演算法通過觀察不同的k值,取得最大離群點得分來處理該問題,但是,仍然需要選擇這些值的上下界。

最後就是基於聚類,乙個物件是基於聚類的離群點,如果該物件不強屬於任何簇。離群點對初始聚類的影響如果通過聚類檢測離群點,則由於離群點影響聚類,存在乙個問題:結構是否有效。優點就是基於線性和接近線性複雜度(k均值)的聚類技術來發現離群點可能是高度有效的,而簇的定義通常是離群點的補,因此可能同時發現簇和離群點。缺點就是產生的離群點集和它們的得分可能非常依賴所用的簇的個數和資料中離群點的存在性。同時聚類演算法產生的簇的質量對該演算法產生的離群點的質量影響非常大。

在這篇文章中我們給大家介紹了關於資料清洗的剩餘一部分知識,通過對這些知識的了解可以幫助我們更好地理解資料分析工作。希望大家通過對這些資料分析清洗方法的學習,可以在工作時更加得心應手,也算是提公升個人的職場競爭力。

python資料清洗(缺失值與異常值處理)

本文寫入的是python資料庫的taob表 source 本地檔案 其中總資料為9616行,列分別為title,link,price,comment檢視資料概括 coding utf 8 author m10 import numpy as np import pandas as pd import...

C 如何進行資料清洗或異常值判斷

如何進行資料清洗或異常值判斷?簡單的方法有高斯分布 正態性 和箱線圖。我們可以用c 來演示。如有錯誤之處請指正。public static listfind listdatalist seq return indexlist 返回資料的位置索引集合 public static double gets...

python如何處理異常

利用python捕獲異常的方式 方法一 捕獲所有的異常 1 2 3 4 5 6 7 8 捕獲異常的第一種方式,捕獲所有的異常 try a b b c exceptexception,data printexception,data 輸出 type exceptions.exception local...