資料處理之去除重複資料

2021-10-01 20:07:47 字數 703 閱讀 1599

# -*- coding: utf-8 -*-

#1. 概念:把資料結構中,行相同的資料只保留一行。

# 語法: drop_duplicates  該方法返回乙個去重後的資料框物件

from pandas import read_csv

df = read_csv("d:/python/workspace/pythonstudy/8.csv")

#找出行重複的位置(索引值)

dindex = df.duplicated() #返回一列布林值。如果某行資料沒有出現過,則返回false,否則返回true

#找出列重複位置

dindex = df.duplicated('id') #返回id這一列重複的位置

dindex = df.duplicated(['id','key']) #這兩列同時重複的位置

#根據上面的返回值,把重複資料提取出來                     

df[dindex]

#刪除重複值

#預設根據所有的列,進行刪除(當某兩行所有列的資料都重複時,會刪除其中一行)

newdf = df.drop_duplicates()

#當然也可以指定某一列或多列,進行重複值刪除

newdf = df.drop_duplicates("id")

newdf = df.drop_duplicates(["id","key"])

python筆記8 資料處理之去除重複資料

coding utf 8 1.概念 把資料結構中,行相同的資料只保留一行。語法 drop duplicates 該方法返回乙個去重後的資料框物件 from pandas import read csv df read csv d python workspace pythonstudy 8.csv ...

資料清洗學習之重複資料處理

資料處理 一 重複資料的處理 1 函式法 countif range,criterial range 要計數的單元格範圍 criterial 計算條件 eg a列 員工編號 b列 每個員工編號出現的次數 c列 查詢出現兩次及其以上的重複項,以c9為例,即表示a466074從a1到a9是第3次重複出現...

SQL去除重複資料

sql中去除完全相同資料可以用distinct關鍵字,任意欄位去重可以用group by,以下面的資料表為例。idname score1小王 512小魏613小張 714小李515小王 51 1.存在兩條完全相同的紀錄,用關鍵字distinct就可以去掉 select distinct from t...