乾貨來了!快速教你資料清洗的步驟及方法

2022-09-10 12:54:23 字數 1861 閱讀 8845

​說起資料清洗,可能會有些小夥伴會覺得這一步可以忽略掉,但是!作為混跡在資料分析這一塊多年的老油條,小編在此嚴肅地宣告!資料清理是資料處理中最不能被忽略的部分,它是資料分析過程中不可缺少的一環,其結果的好壞直接關係到模型的效果。實際上,資料清洗通常要占用50%—80%的分析過程。國外有些學術機構還會專門研究如何做資料清洗,相關的書籍也不少。

資料清洗的主要型別有哪幾種

一、殘缺資料

此類資料主要是缺少某些應包括的資訊,如**商名稱、分公司名稱、客戶區域資訊缺失、業務系統中主表與明細表不匹配等。那麼對於這一型別的資料就需要過濾出來,並在規定的時間內補全,之後再寫入資料倉儲。

二、錯誤資料

這類資料的原因是業務系統完善接收輸入後沒有判斷直接寫入背景資料庫,如數值資料輸成全角數字字元、字串資料、日期格式不正確、日期越界等。這種型別的資料還需要進行分類,對於類似於全形字符、資料前後出現不可見字元的問題,只能通過編寫sql語句來查詢,然後讓使用者在業務系統改後抽取。日期格式不正確或日期越界的錯誤會導致etl執行失敗,這種錯誤需要通過sql的方式從業務系統資料庫挑選出來,交給業務主管部門,要求限期修改,改後提取。

三、重複資料

這種型別的資料,尤其是在維表中,就會出現這種情況,所以要把所有重複資料記錄的字段都寫出來,讓客戶進行確認和分析。

資料整理是乙個反覆的過程,只有不斷地發現問題,解決問題,才能在幾天內完成。關於是否過濾,一般需要客戶確認,被過濾的資料,寫到excel檔案把濾資料寫到資料表,etl開發初期每天都會把過濾資料的郵件傳送給業務單位,促使他們盡快修改錯誤,並可以作為未來驗證資料的基礎。要注意的是,不能過濾有用的資料,要仔細驗證每條過濾規則,然後讓使用者確認。

搞清楚了資料清洗的原則和理論,接下來進行資料清洗就容易很多啦~

如何進行資料清洗

1、對缺失值進行清洗

一般來說,缺失值是最常見的資料問題,處理缺失值也有很多辦法,我們需要按照步驟來做,第一就是確定缺失值範圍:計算每個欄位的缺失值比例,然後根據缺失比例和字段重要性,制定策略。

2、去除不需要的字段

實際操作非常簡單,可以直接刪除,但需要提醒您,在清理資料時,每做一步都備份,或者在小規模資料上成功測試,然後處理所有資料,如果刪除錯誤資料會後悔。

3、填充缺失內容

原因在於,一些缺失值可以通過三種方式被填充,即根據商業知識或經驗推測填補缺失值、用相同的指標的計算結果(均值、中位數、眾數等)填充缺失值、以不同指標的計算結果填充缺失值。

4、重新取數

由於某些指標非常重要又缺失率高,那就需要和取數人員或業務人員了解,是否有其他渠道可以取到相關資料。這就是缺失值清洗的步驟。

5、關聯性驗證

若您的資料來自多種**,則必須進行關聯驗證。如果不關聯,這個資料據需要我們清洗。

現在你對資料清洗有更深的理解嗎?資料清洗是資料分析中非常重要的一步,其重要性不容忽視。但是使用合適的工具可以使資料清洗更加高效方便。正所謂,工欲善其事,必先利其器。借助工具進行資料清洗是非常必要的,思邁特軟體smartbi一站式大資料分析平台的資料清洗功能就很值得推薦。強大的資料處理功能、分布式計算架構,還支援內建排序、去重、對映、行列合併、行列轉換聚合、去空值等資料預處理功能。

資料清洗步驟及常用的方法

確定資料分析目的 獲取資料 清洗資料 探索資料 建模分析 結果交流 探索資料 對整個資料集有全面的認識,一邊後續開展工作 建模分析 常常用到機器學習 深度學習演算法 結果 使用報告 圖表展示資料,將成果與他人分享 髒資料 重複 殘缺 錯誤資料 不符合規則的資料 雜訊資料 分為資料的讀寫 資料的探索與...

關於資料清洗的步驟及方法的理解

資料清洗,是整個資料分析過程中不可缺少的乙個環節,其結果質量直接關係到模型效果和最終結論。在實際操作中,資料清洗通常會佔據分析過程的50 80 的時間。國外有些學術機構會專門研究如何做資料清洗,相關的書籍也不少。照例,先上圖 預處理階段主要做兩件事情 一是將資料匯入處理工具。通常來說,建議使用資料庫...

教你快速搜尋自己想要的資料

教你快速搜尋自己想要的資料 我不敢保證現在100 的大學生不會使用網際網路快速搜尋自己所需的資料,但我絕對敢保證有70 90 大學生不會使用此方法進行快速搜尋自己所需的資料。2 了解intitle 和filetype的使用方法以及各種檔案的副檔名。比如說 我想快速做乙個為汽車營銷的培訓資料,我將如何...