csv資料根據某一列內容刪除重複行

2021-09-29 01:39:00 字數 1004 閱讀 3174

利用python爬蟲獲取了csv格式的資料,但資料每一行有重複內容,需要把含有重複項的整行刪除掉,按照某列的內容刪除重複行(按照整行同理),**如下(按照自己的路徑修改**中路徑即可):

import csv

if __name__ ==

'__main__'

: inpath=

'c:/users/administrator/desktop/爬蟲彙總.csv'

outpath=

'c:/users/administrator/desktop/資料刪除重複行.csv'

i=0 finished =

with

open

(inpath, mode=

'r', encoding=

'utf_8'

)as infile:

for line1 in infile.readlines():

line=line1.split(

',')

i+=1print

(len

(line)

)print

(i)if

len(line)

==12

:#我的資料有12列

res =

if line[9]

notin finished:

#以第10列的元素為篩選依據

with

open

(outpath, r"a"

, newline=

"", encoding=

"utf8"

)as infile:

write = csv.writer(infile)

write.writerows(res)

這樣就可以飛速的利用python刪除重複項了。

## 另外,刪除重複項還以直接利用excel實現,路徑:『工具欄--資料--刪除重複項--選擇要依據的列』

shell指令碼根據某一列去重

sort t t k3 u filenamesort 排序命令 t 指定分隔符為 t k 指定第三列 u 去重 sort的其他一些選項 r 降序排列 o 把排序結果輸出到原始檔 sort預設是把結果輸出到標準輸出,所以需要用重定向才能將結果寫入檔案,形如 sort filename newfile ...

pandas刪除某一列的方法

方法一 直接del df column name 刪除sub grade 列,輸入del df sub grade x 方法二 採用drop方法,有下面三種等價的表示式 1.df df.drop column name 1 輸入 df,drop num axix 1 不改變記憶體,及輸入df的時候,...

mysql將一列資料累加 MySql某一列累計查詢

問題 有一列資料,需要累計顯示出來 比如 id salary 查詢結果 id salary sumsalary 1 10000 1 10000 10000 2 20000 2 20000 30000 3 30000 3 30000 60000 解決方案 1 使用自定義變數 用 set 定義變數 my...