chapter 資料清洗1 2

1.3填充缺失值

當資料量不夠或者其他部分資訊很重要的時候，就不能刪除資料了，這時需要對缺失值進行填充，通過fillna方法可以將缺失值替換為常數值。

例：

import pandas as pd
import numpy as np
from pandas import series,dataframe
from ipython.display import display
data=dataframe(np.arange(12)
.reshape(3,
4))display(data)
#對資料進行處理，即建立一些為缺失值的資料
使用fillna方法填充
import pandas as pd
import numpy as np
from pandas import series,dataframe
from ipython.display import display
data=dataframe(np.arange(12)
.reshape(3,
4))display(data)
#對資料進行處理，即建立一些為缺失值的資料
data.loc[1,
:]=np.nan
data[2]
=np.nan
display(data)
data.fillna(0)
#全部填充為0
當然在fillna中傳入字典結構資料，可以針對不同列填充不同的值，fillna返回的是新物件，不會對原資料進行修改，可通過inplace就地進行修改。
例：
import pandas as pd
import numpy as np
from pandas import series,dataframe
from ipython.display import display
data=dataframe(np.arange(12)
.reshape(3,
4))display(data)
#對資料進行處理，即建立一些為缺失值的資料
還可以通過平均值來作為填充數
import pandas as pd
import numpy as np
from pandas import series,dataframe
from ipython.display import display
data=dataframe(np.arange(12)
.reshape(3,
4))display(data)
#對資料進行處理，即建立一些為缺失值的資料
2.移除重複資料
在爬取的資料中往往會出現重複資料，對於重複資料保留乙份即可，其餘可以移除，在dataframe資料中，通過duplicated方法判斷各行是否有重複資料。
通過drop_duplicates方法，可以刪除多餘的重複項
很顯然這種情況下當每行的每個欄位都相同時才會判斷出為重複，這時可以通過指定部分作為判斷重複項的依據。
import pandas as pd
import numpy as np
from pandas import series,dataframe
from ipython.display import display
data=dataframe(
)display(data)
data.drop_duplicates(
'年齡'
從結果可以看出，保留的資料為第一次出現的組合。傳入keep=『last』可以保留最後乙個。
 chapter 資料清洗1 3
3.替換值 替換值類似於excel中的替換功能，是對查詢到的資料替換為相應的資料。在pandas中，通過replace可以完成替換功能。例 import pandas as pd 這裡建立不完整的資料，使用replace替換 import pandas as pd import numpy as n...
chapter 外部資料讀取和儲存1 2
excel 資料是工作過程中常見的一種資料。可以通過read excel和to excel函式對excel資料的讀取和儲存。建立乙個excel資料。開啟excel，輸入資料。通過read excel函式開啟。import pandas as pd from ipython.display impor...
資料清洗之資料清洗概述
從廣泛的意義上來講，資料是乙個寬泛的概念，包括但不限於 我們要了解資料清洗，就需理解資料的內涵和外延 常見的資料有 其中，比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...

chapter 資料清洗1 2

chapter 資料清洗1 3

chapter 外部資料讀取和儲存1 2

資料清洗之資料清洗概述

相關推薦