python筆記8 資料處理之去除重複資料

2021-09-09 05:34:17 字數 703 閱讀 5392

# -*- coding: utf-8 -*-

#1. 概念:把資料結構中,行相同的資料只保留一行。

# 語法: drop_duplicates  該方法返回乙個去重後的資料框物件

from pandas import read_csv

df = read_csv("d:/python/workspace/pythonstudy/8.csv")

#找出行重複的位置(索引值)

dindex = df.duplicated() #返回一列布林值。如果某行資料沒有出現過,則返回false,否則返回true

#找出列重複位置

dindex = df.duplicated('id') #返回id這一列重複的位置

dindex = df.duplicated(['id','key']) #這兩列同時重複的位置

#根據上面的返回值,把重複資料提取出來                     

df[dindex]

#刪除重複值

#預設根據所有的列,進行刪除(當某兩行所有列的資料都重複時,會刪除其中一行)

newdf = df.drop_duplicates()

#當然也可以指定某一列或多列,進行重複值刪除

newdf = df.drop_duplicates("id")

newdf = df.drop_duplicates(["id","key"])

Python之資料處理

靠別人不如靠自己,學學學學學學學學!原資料 需求 coding utf 8 txtfile aminer1.txt newtxtfile open new txtfile,w with open txtfile,r as file to read lines file to read.readlin...

python之資料處理

檔案資料讀寫的基本操作 import this 本地檔案的界定 指向乙個本地儲存的檔案,是乙個連線或者乙個對映 path1 c users 11786 desktop test.txt 正斜線兩個或者反斜線乙個來用於資料路徑的表達 再或者用r 寫在檔案路徑外面 推薦第三種 path2 c users...

python筆記6 資料處理之匯入資料

coding utf 8 資料一般儲存在檔案 csv txt excel 和資料庫中 1.匯入csv檔案 第一行是列名 from pandas import read csv 檔案的編碼格式也應該是 utf 8 才行,否則報錯 df read csv d python workspace pytho...