資料分析 一次異常值的處理

2022-08-17 22:06:09 字數 595 閱讀 4796

在資料分析中,我們會在資料中會發現一些異常值,他們的值很大或者很小,很不正常,會影響我們對資料的分析。看下面的乙個例子。

這裡是對變數-降水量和變數-pm2.5的值做的散點圖分析,但是可以看到有乙個點在1000000附近,根據生活常識來說,這顯然是不正常的。沒有這麼高的降水量,而且它是乙個孤立的點。說明它是乙個異常值。異常值的產生,有多種原因,可能是裝置的問題。也可能是感測器的問題。這裡不做討論。一般我們對異常值的處理方法,大概有兩種,一種是直接刪除,異常值資料較少,對我們的龐大的資料來說微不足道,對分析結果沒有影響。還有一種情況是異常值較多,會影響到分析結果。這個時候要採用適當的模型去把異常值轉化為近似正常值的結果。下面是乙個刪除異常值的例子。

通過命令刪除掉異常值的資料,我們可以發現,散點圖變得正常了。

資料分析之異常值檢測與處理

一 什麼是異常值?在機器學習中,異常檢測和處理是乙個比較小的分支,或者說,是機器學習的乙個副產物,因為在一般的 問題中,模型通常是對整體樣本資料結構的一種表達方式,這種表達方式通常抓住的是整體樣本一般性的性質,而那些在這些性質上表現完全與整體樣本不一致的點,我們就稱其為異常點,通常異常點在 問題中是...

Python資料分析基礎 異常值檢測和處理

知乎 python資料分析師 本篇繼續分享資料清洗中的另乙個常見問題 異常值檢測和處理。在機器學習中,異常檢測和處理是乙個比較小的分支,或者說,是機器學習的乙個副產物,因為在一般的 問題中,模型通常是對整體樣本資料結構的一種表達方式,這種表達方式通常抓住的是整體樣本一般性的性質,而那些在這些性質上表...

Python資料分析基礎 異常值檢測和處理

在機器學習中,異常檢測和處理是乙個比較小的分支,或者說,是機器學習的乙個副產物,因為在一般的 問題中,模型通常是對整體樣本資料結構的一種表達方式,這種表達方式通常抓住的是整體樣本一般性的性質,而那些在這些性質上表現完全與整體樣本不一致的點,我們就稱其為異常點,通常異常點在 問題中是不受開發者歡迎的,...