pandas 22 資料去重處理

2022-08-03 07:06:15 字數 1165 閱讀 6912

資料去重可以使用duplicated()和drop_duplicates()兩個方法。

dataframe.duplicated(subset = none,keep =『first』 )返回boolean series表示重複行

引數:

subset:列標籤或標籤序列,可選

僅考慮用於標識重複項的某些列,預設情況下使用所有列

keep:,預設』first』

import numpy as np

import pandas as pd

from pandas import series, dataframe

df = pd.read_csv('./demo_duplicate.csv')

print(df)

print(df['seqno'].unique()) # [0. 1.]

# 使用duplicated 檢視 重複值

# 引數 keep 可以標記重複值

print(df['seqno'].duplicated())

'''0 false

1 true

2 true

3 true

4 false

name: seqno, dtype: bool

'''# 刪除 series 重複資料

print(df['seqno'].drop_duplicates())

'''0 0.0

4 1.0

name: seqno, dtype: float64

'''# 刪除 dataframe 重複資料

print(df.drop_duplicates(['seqno'])) # 按照 seqno 來 去重

''' price seqno symbol time

'''# drop_dujplicates() 第二個引數 keep 包含的值 有: first、last、false

print(df.drop_duplicates(['seqno'], keep='last')) # 儲存最後乙個

''' price seqno symbol time

'''

pandas 資料去重

讀取csv格式的資料 df pd.read csv data imdb movie data.csv 去重 統計導演的人數 法1 director count1 len set df director tolist print director count1 去重 統計導演的人數 法2 direct...

Pandas 資料去重

drop duplicats 方法去重 對 dataframe 資料去重 示例 df.drop duplicats subset month day time keep last inplace true drop duplicats引數說明 引數subset subset用來指定特定的列,預設所有...

pandas去重方法

資料去重可以使用duplicated 和drop duplicates 兩個方法。dataframe.duplicated subset none,keep first 返回boolean series表示重複行 引數 subset 列標籤或標籤序列,可選 僅考慮用於標識重複項的某些列,預設情況下使...