資料清洗步驟及常用的方法

2021-10-08 02:01:11 字數 1175 閱讀 4755

確定資料分析目的-獲取資料-清洗資料-探索資料-建模分析-結果交流

探索資料:對整個資料集有全面的認識,一邊後續開展工作

建模分析:常常用到機器學習、深度學習演算法

結果:使用報告、圖表展示資料,將成果與他人分享

髒資料:重複、殘缺、錯誤資料、不符合規則的資料(雜訊資料)

分為資料的讀寫、資料的探索與描述、資料簡單處理、重複值處理、缺失值處理、異常值處理、文字字串的處理、時間格式序列的處理。除了前三個以外順序可以調整。

pd.read_csv()

pd.read_excel()

df.info()

df.head()

df.shape

df.describe() #只顯示數值型資料的描述統計

英文本母大小寫轉換

duplicated() #分為兩種,一種是前面的是true,一種是後為true

drop_duplicates() #不在原資料集上改變,需要加inplace引數

去除掉重複行後,要進行索引重置

df.isnall() 檢視缺失值

df.notnull()

df.dropna() #刪除缺失值

df.fillna() #填補缺失值

均值填充法

向前/後填充法

模型填充,如隨機森林,knn

可以根據每一列,一次一次找缺失值

刪除異常值記錄行或列

作為缺失值處理

平均值修正、蓋帽法修正

不處理:業務分析挖掘價值

根據統計學知識找3個標準差外的為異常值:

sta = (x-x.mean())/x.std()

sta.abs()>3 #即為異常值

對於建模來說,通常會刪掉異常值

對於業務來說,異常值可能包含隱含資訊,意味著更多的價值

去除前後空格處理

處理中間有, ()之類的資料

正規表示式提取有用資訊

df[『酒店評分』] = df.酒店.str.extract(pattern, expand=false)

expand=true 返回index/series

expand=false 返回dataframe

將系統時間格式化

系統時間與時間戳轉換

年月日的提取

關於資料清洗的步驟及方法的理解

資料清洗,是整個資料分析過程中不可缺少的乙個環節,其結果質量直接關係到模型效果和最終結論。在實際操作中,資料清洗通常會佔據分析過程的50 80 的時間。國外有些學術機構會專門研究如何做資料清洗,相關的書籍也不少。照例,先上圖 預處理階段主要做兩件事情 一是將資料匯入處理工具。通常來說,建議使用資料庫...

資料清洗步驟

資料清洗可以通過5步做好 1.把所有非數值變數轉為數值變數 含有人類知識的變數根據先驗知識轉化 比如日期轉化為天數 年 月 日等,地理轉化為經緯度 城市等級等,定序變數保留序數 不含有先驗知識的非數值變數通過one hot encoding一律轉成0 1啞變數,此時所有變數都是數值型的了。2.把一系...

乾貨來了!快速教你資料清洗的步驟及方法

說起資料清洗,可能會有些小夥伴會覺得這一步可以忽略掉,但是!作為混跡在資料分析這一塊多年的老油條,小編在此嚴肅地宣告!資料清理是資料處理中最不能被忽略的部分,它是資料分析過程中不可缺少的一環,其結果的好壞直接關係到模型的效果。實際上,資料清洗通常要占用50 80 的分析過程。國外有些學術機構還會專門...