chapter 資料清洗1 2

2021-10-23 03:10:15 字數 3218 閱讀 6899

1.3填充缺失值

當資料量不夠或者其他部分資訊很重要的時候,就不能刪除資料了,這時需要對缺失值進行填充,通過fillna方法可以將缺失值替換為常數值。

例:

import pandas as pd

import numpy as np

from pandas import series,dataframe

from ipython.display import display

data=dataframe(np.arange(12)

.reshape(3,

4))display(data)

#對資料進行處理,即建立一些為缺失值的資料

使用fillna方法填充

import pandas as pd

import numpy as np

from pandas import series,dataframe

from ipython.display import display

data=dataframe(np.arange(12)

.reshape(3,

4))display(data)

#對資料進行處理,即建立一些為缺失值的資料

data.loc[1,

:]=np.nan

data[2]

=np.nan

display(data)

data.fillna(0)

#全部填充為0

當然在fillna中傳入字典結構資料,可以針對不同列填充不同的值,fillna返回的是新物件,不會對原資料進行修改,可通過inplace就地進行修改。

例:

import pandas as pd

import numpy as np

from pandas import series,dataframe

from ipython.display import display

data=dataframe(np.arange(12)

.reshape(3,

4))display(data)

#對資料進行處理,即建立一些為缺失值的資料

還可以通過平均值來作為填充數

import pandas as pd

import numpy as np

from pandas import series,dataframe

from ipython.display import display

data=dataframe(np.arange(12)

.reshape(3,

4))display(data)

#對資料進行處理,即建立一些為缺失值的資料

2.移除重複資料

在爬取的資料中往往會出現重複資料,對於重複資料保留乙份即可,其餘可以移除,在dataframe資料中,通過duplicated方法判斷各行是否有重複資料。

通過drop_duplicates方法,可以刪除多餘的重複項

很顯然這種情況下當每行的每個欄位都相同時才會判斷出為重複,這時可以通過指定部分作為判斷重複項的依據。

import pandas as pd

import numpy as np

from pandas import series,dataframe

from ipython.display import display

data=dataframe(

)display(data)

data.drop_duplicates(

'年齡'

從結果可以看出,保留的資料為第一次出現的組合。傳入keep=『last』可以保留最後乙個。

chapter 資料清洗1 3

3.替換值 替換值類似於excel中的替換功能,是對查詢到的資料替換為相應的資料。在pandas中,通過replace可以完成替換功能。例 import pandas as pd 這裡建立不完整的資料,使用replace替換 import pandas as pd import numpy as n...

chapter 外部資料讀取和儲存1 2

excel 資料是工作過程中常見的一種資料。可以通過read excel和to excel函式對excel資料的讀取和儲存。建立乙個excel資料。開啟excel,輸入資料。通過read excel函式開啟。import pandas as pd from ipython.display impor...

資料清洗之資料清洗概述

從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...