pandas常用資料清洗方法

2022-04-03 03:42:26 字數 1307 閱讀 4107

以下各例子均使用如下資料集進行演示。

判斷各行是重複,false為非重複值。

刪除重複行

通過指定列,刪除重複行

對缺失值進行填充 ,用實數0填充na。

通常情況下,刪除行使用引數axis = 0,刪除列使用axis = 1。

按列刪除缺失值,使用引數axis=1。

how = "all" 全部是na才刪,"any"只要有na就刪除

直接刪除某列。

刪除指定行

重新命名索引名和列名。

替換df值,前後值可以用字典表,。

series.map,對指定列進行函式轉換。

merge 函式通過乙個或多個鍵來將資料集的行連線起來。該函式的主要 應用場景是針對同乙個主鍵存在兩張包含不同特徵的表,通過該主鍵的連線,將兩張表進行合併。合併之後,兩張表的行數沒有增加,列數是兩張表的列數之和減一。

拼接兩個資料集,可在行或者列上合併。

axis=0 是行拼接,拼接之後行數增加,列數也根據join來定,join=』outer』時,列數是兩表並集。同理join=』inner』,列數是兩表交集。

合併重疊資料,用df2的資料補充df1的缺失值nan。

pandas資料清洗

1 檢視重複的行 df.duplicated 2 檢視某列重複的行df.duplicated 列標籤 3 刪除重複的行df.drop duplicates 4 刪除某一列重複的行df.drop duplicates 列標籤 1 判斷資料缺失df.isnull 2 資料未缺失df.notnull 3 ...

pandas資料清洗

df.query 查詢符合某個條件語句的 and or 新增一列的值等於df其中兩列的加和 分組求和 df.groupby 可以指定某列進行求和df.groupby 姓名 df插入一列在指定索引 方法一 df.insert 0,colname,value insert one col at firs...

Pandas 資料清洗常見方法

df pd.read csv 檔名稱 df.info df.shapedf.describe df.drop duplicates inplace true data.reset index inplace true,drop true data.loc data 列名 isnull 01 每一列資...