資料處理之去除重複資料

# -*- coding: utf-8 -*-

#1. 概念：把資料結構中，行相同的資料只保留一行。

# 語法： drop_duplicates 該方法返回乙個去重後的資料框物件

from pandas import read_csv

df = read_csv("d:/python/workspace/pythonstudy/8.csv")

#找出行重複的位置（索引值）

dindex = df.duplicated() #返回一列布林值。如果某行資料沒有出現過，則返回false，否則返回true

#找出列重複位置

dindex = df.duplicated('id') #返回id這一列重複的位置

dindex = df.duplicated(['id','key']) #這兩列同時重複的位置

#根據上面的返回值，把重複資料提取出來

df[dindex]

#刪除重複值

#預設根據所有的列，進行刪除（當某兩行所有列的資料都重複時，會刪除其中一行）

newdf = df.drop_duplicates()

#當然也可以指定某一列或多列，進行重複值刪除

newdf = df.drop_duplicates("id")

newdf = df.drop_duplicates(["id","key"])

python筆記8 資料處理之去除重複資料

coding utf 8 1.概念把資料結構中，行相同的資料只保留一行。語法 drop duplicates 該方法返回乙個去重後的資料框物件 from pandas import read csv df read csv d python workspace pythonstudy 8.csv ...

資料清洗學習之重複資料處理

資料處理一重複資料的處理 1 函式法 countif range,criterial range 要計數的單元格範圍 criterial 計算條件 eg a列員工編號 b列每個員工編號出現的次數 c列查詢出現兩次及其以上的重複項，以c9為例，即表示a466074從a1到a9是第3次重複出現...

SQL去除重複資料

sql中去除完全相同資料可以用distinct關鍵字，任意欄位去重可以用group by，以下面的資料表為例。idname score1小王 512小魏613小張 714小李515小王 51 1.存在兩條完全相同的紀錄，用關鍵字distinct就可以去掉 select distinct from t...

資料處理之去除重複資料

python筆記8 資料處理之去除重複資料

資料清洗學習之重複資料處理

SQL去除重複資料

相關推薦