資料清洗的那些事兒

內容包括兩個部分:

一、什麼是資料清洗

二、資料清洗的常見問題：1處理離群點、2改善資料、3資料調和、4標準化

檢測和去除資料集中的雜訊資料和無關資料，處理遺漏資料，去除空白資料域和知識背景下的白雜訊。通俗來講就是把髒資料清洗掉，提高資料質量。

1.資料清洗常見問題之處理離群點

對離群點最簡單的解釋是：離群點是和其餘資料不匹配的資料點。按照慣例，任何過高、過低或者異常（基於專案背景）的資料都是離群點。作為資料清洗的一部分，資料科學家通常要識別出離群點並用通用的方法解決它：

· 刪除離群點的值，甚至是離群點對應的實際變數。

· 轉換變數值或變數本身。

2.資料清洗常見問題之改善資料

通過改善進行資料清理是另一種常見的技術，新增相關資訊、事實或資料使得資料變得完整(可能更有價值)。這些附加資料的**可以是用資料中現有資訊或從其他**新增資訊進行計算。基於當前的目的或目標，資料科學家補充的資訊可能用於參考、比較、對比或發現趨勢。

典型的用例包括:

衍生事實計算

對比日曆與財政年度的使用

轉換時區

貨幣轉換

新增當前和前期指標

計算價值，如每天總出貨量

保持緩慢變化的維度

3. 資料清洗常見問題之資料調和

基於研究分析的整體目標，資料科學家可以通過資料調和來轉換、翻譯、或將資料值對映到其他理想值。最普遍的案例是性別或國家**。例如，如果你的文件中將性別編碼為0和1或m和f，你想將資料轉化為一致的male或female。

4.資料清洗常見問題之標準化

大多數主流資料科學家都已經注意到在開始統計研究或分析專案之前，將資料標準化作為資料清理過程一部分的重要性。這是很重要的，如果沒有標準化，量綱不同的資料點對分析的貢獻會不均等。

如果你認為在0到100之間的資料點比0到1範圍內的變數影響更大，你可以理解資料標準化的重要性。使用這些未經過標準化的變數，事實上在分析中賦予較大範圍的變數更多的權重。為了解決這一問題並均衡這些變數，資料科學家試圖將資料轉化為可比的量綱。

資料點的中心化是資料標準化中最常見的例子（儘管還有很多）。為了使資料點中心化，資料科學家把檔案中的每個資料點減去所有資料的平均值。