DC資料清理(pandas seabron)

2021-08-31 16:02:51 字數 1915 閱讀 5659

格式轉換

資料的原始儲存形式未必適合python的資料處理

例如:時間,字串轉其他

缺失資料

每條資料都可能在某些屬性值上缺失

怎樣應對缺失資料

忽略有缺失資料的記錄

直接把值標記成未知

利用平均值、最常出現的值等去填充(有很多複雜的方法。)

異常資料

出現不符合常識的資料(異常挖掘)

處理方式模擬缺失資料

資料標準化

us、usa、united states------>美國(usa)

住址範圍(經緯度不同,但是同乙個城市。)

工具pandas:主要的資料格式是datafram   seaborn:資料視覺化

實戰操作(資料bank)

載入模組,讀入資料

import pandas

bank=pandas.read_csv("bank-additional-train.csv")

#檢視資料的前三行

用describe看一下資料描述

看一下具體資料維度bank.shape

輸出為(37069,21),可知有37069條資料,21個專案。

bank.loc[1:4,'job']#部分輸出

1 admin.

2 admin.

3 admin.

4 admin.

name: job, dtype: object

對資料中的age進行清洗處理

bank["age"].dropna()#丟掉缺失值na
進行視覺化

import seaborn 

%matplotlib inline#這一步只在notebook中是必要的

篩選了年齡小於70歲的資料,畫圖如下

對於時間的處理方法

pandas.to_datatime(bank[date])轉換資料型別

自定義時間型別pandas.to_datatime(bank[date],format=

」%y%m%d%h%m%s」)

以上

DC學院學習筆記(十一) 資料預處理 資料清理

終於到了資料儲存與預處理的最後一講了,感覺講得還不錯!下面來看看資料的預處理吧!官方文件 pandas速查手冊中文版 seaborn是基於matplotlib的繪相簿,可以製作更多更美觀的圖形,如example gallery中也可以看到很多關於影象的示例。這個繪相簿可以很好地輔助我們對資料進行第一...

清理資料 資料預處理之「資料清理」

由於當今資料的數量龐大且來自於各種不同型別的 因此出現資料異常的可能性不斷增加。鑑於高質量資料可生成更好的模型和 資料預處理的重要性與日俱增,並且已經成為資料科學 機器學習 ai 管道中的基本步驟。在本文中,我們將 資料處理需求,並討論用於完成此流程中每個步驟的不同方法。在資料收集過程中,存在三個影...

中國好DC(資料中心)

隨著這些年全國各地興起建設資料中心的熱潮,我國資料中心數量已接近60萬座,規模更大 效能更高的資料中心在不斷出現,出現了不少中國好dc 資料中心 這些資料中心往往是在某些方面具有領先優勢,是資料中心中的佼佼者。本文就來說說這些中國好dc,當然這裡給出的評估結果,依據的是公開可查到的資料資料,也摻雜著...