DC資料清理（pandas seabron）

格式轉換

資料的原始儲存形式未必適合python的資料處理

例如：時間，字串轉其他

缺失資料

每條資料都可能在某些屬性值上缺失

怎樣應對缺失資料

忽略有缺失資料的記錄

直接把值標記成未知

利用平均值、最常出現的值等去填充（有很多複雜的方法。）

異常資料

出現不符合常識的資料（異常挖掘）

處理方式模擬缺失資料

資料標準化

us、usa、united states------>美國（usa）

住址範圍（經緯度不同，但是同乙個城市。）

工具pandas：主要的資料格式是datafram seaborn：資料視覺化

實戰操作（資料bank）

載入模組，讀入資料

import pandas
bank=pandas.read_csv("bank-additional-train.csv")
#檢視資料的前三行
用describe看一下資料描述
看一下具體資料維度bank.shape
輸出為（37069，21），可知有37069條資料，21個專案。
bank.loc[1:4,'job']#部分輸出
1 admin.
2 admin.
3 admin.
4 admin.
name: job, dtype: object
對資料中的age進行清洗處理
bank["age"].dropna()#丟掉缺失值na
進行視覺化
import seaborn 
%matplotlib inline#這一步只在notebook中是必要的
篩選了年齡小於70歲的資料，畫圖如下
對於時間的處理方法
pandas.to_datatime(bank[date])轉換資料型別
自定義時間型別pandas.to_datatime(bank[date],format=
」%y%m%d%h%m%s」)
以上
 DC學院學習筆記（十一） 資料預處理 資料清理
終於到了資料儲存與預處理的最後一講了，感覺講得還不錯！下面來看看資料的預處理吧！官方文件 pandas速查手冊中文版 seaborn是基於matplotlib的繪相簿，可以製作更多更美觀的圖形，如example gallery中也可以看到很多關於影象的示例。這個繪相簿可以很好地輔助我們對資料進行第一...
清理資料 資料預處理之「資料清理」
由於當今資料的數量龐大且來自於各種不同型別的 因此出現資料異常的可能性不斷增加。鑑於高質量資料可生成更好的模型和 資料預處理的重要性與日俱增，並且已經成為資料科學 機器學習 ai 管道中的基本步驟。在本文中，我們將 資料處理需求，並討論用於完成此流程中每個步驟的不同方法。在資料收集過程中，存在三個影...
中國好DC（資料中心）
隨著這些年全國各地興起建設資料中心的熱潮，我國資料中心數量已接近60萬座，規模更大 效能更高的資料中心在不斷出現，出現了不少中國好dc 資料中心 這些資料中心往往是在某些方面具有領先優勢，是資料中心中的佼佼者。本文就來說說這些中國好dc，當然這裡給出的評估結果，依據的是公開可查到的資料資料，也摻雜著...

DC資料清理（pandas seabron）

DC學院學習筆記（十一）資料預處理資料清理

清理資料資料預處理之「資料清理」

中國好DC（資料中心）

DC資料清理（pandas seabron）

DC學院學習筆記（十一） 資料預處理 資料清理

清理資料 資料預處理之「資料清理」

中國好DC（資料中心）

相關推薦

DC學院學習筆記（十一）資料預處理資料清理

清理資料資料預處理之「資料清理」