利用python爬蟲獲取了csv格式的資料,但資料每一行有重複內容,需要把含有重複項的整行刪除掉,按照某列的內容刪除重複行(按照整行同理),**如下(按照自己的路徑修改**中路徑即可):
import csv
if __name__ ==
'__main__'
: inpath=
'c:/users/administrator/desktop/爬蟲彙總.csv'
outpath=
'c:/users/administrator/desktop/資料刪除重複行.csv'
i=0 finished =
with
open
(inpath, mode=
'r', encoding=
'utf_8'
)as infile:
for line1 in infile.readlines():
line=line1.split(
',')
i+=1print
(len
(line)
)print
(i)if
len(line)
==12
:#我的資料有12列
res =
if line[9]
notin finished:
#以第10列的元素為篩選依據
with
open
(outpath, r"a"
, newline=
"", encoding=
"utf8"
)as infile:
write = csv.writer(infile)
write.writerows(res)
這樣就可以飛速的利用python刪除重複項了。
## 另外,刪除重複項還以直接利用excel實現,路徑:『工具欄--資料--刪除重複項--選擇要依據的列』
shell指令碼根據某一列去重
sort t t k3 u filenamesort 排序命令 t 指定分隔符為 t k 指定第三列 u 去重 sort的其他一些選項 r 降序排列 o 把排序結果輸出到原始檔 sort預設是把結果輸出到標準輸出,所以需要用重定向才能將結果寫入檔案,形如 sort filename newfile ...
pandas刪除某一列的方法
方法一 直接del df column name 刪除sub grade 列,輸入del df sub grade x 方法二 採用drop方法,有下面三種等價的表示式 1.df df.drop column name 1 輸入 df,drop num axix 1 不改變記憶體,及輸入df的時候,...
mysql將一列資料累加 MySql某一列累計查詢
問題 有一列資料,需要累計顯示出來 比如 id salary 查詢結果 id salary sumsalary 1 10000 1 10000 10000 2 20000 2 20000 30000 3 30000 3 30000 60000 解決方案 1 使用自定義變數 用 set 定義變數 my...