pandas 22 資料去重處理

資料去重可以使用duplicated()和drop_duplicates()兩個方法。

dataframe.duplicated（subset = none，keep =『first』）返回boolean series表示重複行

引數：

subset：列標籤或標籤序列，可選

僅考慮用於標識重複項的某些列，預設情況下使用所有列

keep：，預設』first』

import numpy as np
import pandas as pd
from pandas import series, dataframe
df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['seqno'].unique()) # [0. 1.]
# 使用duplicated 檢視 重複值
# 引數 keep 可以標記重複值 
print(df['seqno'].duplicated())
'''0 false
1 true
2 true
3 true
4 false
name: seqno, dtype: bool
'''# 刪除 series 重複資料
print(df['seqno'].drop_duplicates())
'''0 0.0
4 1.0
name: seqno, dtype: float64
'''# 刪除 dataframe 重複資料
print(df.drop_duplicates(['seqno'])) # 按照 seqno 來 去重
''' price seqno symbol time
'''# drop_dujplicates() 第二個引數 keep 包含的值 有： first、last、false
print(df.drop_duplicates(['seqno'], keep='last')) # 儲存最後乙個
''' price seqno symbol time
'''

pandas 資料去重

讀取csv格式的資料 df pd.read csv data imdb movie data.csv 去重統計導演的人數法1 director count1 len set df director tolist print director count1 去重統計導演的人數法2 direct...

Pandas 資料去重

drop duplicats 方法去重對 dataframe 資料去重示例 df.drop duplicats subset month day time keep last inplace true drop duplicats引數說明引數subset subset用來指定特定的列，預設所有...

pandas去重方法

資料去重可以使用duplicated 和drop duplicates 兩個方法。dataframe.duplicated subset none，keep first 返回boolean series表示重複行引數 subset 列標籤或標籤序列，可選僅考慮用於標識重複項的某些列，預設情況下使...

pandas 22 資料去重處理

pandas 資料去重

Pandas 資料去重

pandas去重方法

相關推薦