pandas去重方法

2022-06-11 09:51:10 字數 1292 閱讀 3669

資料去重可以使用duplicated()和drop_duplicates()兩個方法。

dataframe.duplicated(subset = none,keep =『first』 )返回boolean series表示重複行

引數:

subset:列標籤或標籤序列,可選

僅考慮用於標識重複項的某些列,預設情況下使用所有列

keep:,預設』first』

import

numpy as np

import

pandas as pd

from pandas import

series, dataframe

df = pd.read_csv('

./demo_duplicate.csv')

print

(df)

print(df['

seqno

'].unique()) #

[0. 1.]

#使用duplicated 檢視 重複值

#引數 keep 可以標記重複值

print(df['

seqno

'].duplicated())

'''0 false

1 true

2 true

3 true

4 false

name: seqno, dtype: bool

'''#

刪除 series 重複資料

print(df['

seqno

'].drop_duplicates())

'''0 0.0

4 1.0

name: seqno, dtype: float64

'''#

刪除 dataframe 重複資料

print(df.drop_duplicates(['

seqno

'])) #

按照 seqno 來 去重

'''price seqno symbol time

'''#

drop_dujplicates() 第二個引數 keep 包含的值 有: first、last、false

print(df.drop_duplicates(['

seqno

'], keep='

last

')) #

儲存最後乙個

'''price seqno symbol time

'''

pandas 資料去重

讀取csv格式的資料 df pd.read csv data imdb movie data.csv 去重 統計導演的人數 法1 director count1 len set df director tolist print director count1 去重 統計導演的人數 法2 direct...

Pandas 資料去重

drop duplicats 方法去重 對 dataframe 資料去重 示例 df.drop duplicats subset month day time keep last inplace true drop duplicats引數說明 引數subset subset用來指定特定的列,預設所有...

pandas根據某列去重

drop duplicates subset comment keep first inplace true 引數 栗子 首先建立乙個dataframe。使用drop duplicates來去除重複值,如果不指明subset,那麼預設根據所有列來考慮,即當某兩行資料所有列都重複時進行去重。subse...