資料清洗步驟及常用的方法

確定資料分析目的-獲取資料-清洗資料-探索資料-建模分析-結果交流

探索資料：對整個資料集有全面的認識，一邊後續開展工作

建模分析：常常用到機器學習、深度學習演算法

結果：使用報告、圖表展示資料，將成果與他人分享

髒資料：重複、殘缺、錯誤資料、不符合規則的資料（雜訊資料）

分為資料的讀寫、資料的探索與描述、資料簡單處理、重複值處理、缺失值處理、異常值處理、文字字串的處理、時間格式序列的處理。除了前三個以外順序可以調整。

pd.read_csv()

pd.read_excel()

df.info()

df.head()

df.shape

df.describe() #只顯示數值型資料的描述統計

英文本母大小寫轉換

duplicated() #分為兩種，一種是前面的是true，一種是後為true

drop_duplicates() #不在原資料集上改變，需要加inplace引數

去除掉重複行後，要進行索引重置

df.isnall() 檢視缺失值

df.notnull()

df.dropna() #刪除缺失值

df.fillna() #填補缺失值

均值填充法

向前/後填充法

模型填充，如隨機森林，knn

可以根據每一列，一次一次找缺失值

刪除異常值記錄行或列

作為缺失值處理

平均值修正、蓋帽法修正

不處理：業務分析挖掘價值

根據統計學知識找3個標準差外的為異常值：

sta = (x-x.mean())/x.std()

sta.abs()>3 #即為異常值

對於建模來說，通常會刪掉異常值

對於業務來說，異常值可能包含隱含資訊，意味著更多的價值

去除前後空格處理

處理中間有, ()之類的資料

正規表示式提取有用資訊

df[『酒店評分』] = df.酒店.str.extract(pattern, expand=false)

expand=true 返回index/series

expand=false 返回dataframe

將系統時間格式化

系統時間與時間戳轉換

年月日的提取

關於資料清洗的步驟及方法的理解

資料清洗，是整個資料分析過程中不可缺少的乙個環節，其結果質量直接關係到模型效果和最終結論。在實際操作中，資料清洗通常會佔據分析過程的50 80 的時間。國外有些學術機構會專門研究如何做資料清洗，相關的書籍也不少。照例，先上圖預處理階段主要做兩件事情一是將資料匯入處理工具。通常來說，建議使用資料庫...

資料清洗步驟

資料清洗可以通過5步做好 1.把所有非數值變數轉為數值變數含有人類知識的變數根據先驗知識轉化比如日期轉化為天數年月日等，地理轉化為經緯度城市等級等，定序變數保留序數不含有先驗知識的非數值變數通過one hot encoding一律轉成0 1啞變數，此時所有變數都是數值型的了。2.把一系...

乾貨來了！快速教你資料清洗的步驟及方法

說起資料清洗，可能會有些小夥伴會覺得這一步可以忽略掉，但是！作為混跡在資料分析這一塊多年的老油條，小編在此嚴肅地宣告！資料清理是資料處理中最不能被忽略的部分，它是資料分析過程中不可缺少的一環，其結果的好壞直接關係到模型的效果。實際上，資料清洗通常要占用50 80 的分析過程。國外有些學術機構還會專門...

資料清洗步驟及常用的方法

關於資料清洗的步驟及方法的理解

資料清洗步驟

乾貨來了！快速教你資料清洗的步驟及方法

相關推薦