Python對多屬性的重複資料去重

2021-07-25 08:00:26 字數 1012 閱讀 8481

python中的pandas模組中對重複資料去重步驟:

1)利用dataframe中的duplicated方法返回乙個布林型的series,顯示各行是否有重複行,沒有重複行顯示為false,有重複行顯示為true;

2)再利用dataframe中的drop_duplicates方法用於返回乙個移除了重複行的dataframe。

注釋:如果duplicated方法和drop_duplicates方法中沒有設定引數,則這兩個方法缺省會判斷全部咧,如果在這兩個方法中加入了指定的屬性名(或者稱為列名),例如:frame.drop_duplicates(['state']),則指定部分列(state列)進行重複項的判斷。

具體例項如下:

>>> import pandas as pd

>>> data=

>>> frame=pd.dataframe(data)

>>> frame

pop state

0 a 1

1 b 1

2 c 2

3 d 2

>>> isduplicated=frame.duplicated()

>>> print isduplicated

0 false

1 false

2 false

3 false

dtype: bool

>>> frame=frame.drop_duplicates(['state'])

>>> frame

pop state

0 a 1

2 c 2

>>> isduplicated=frame.duplicated(['state'])

>>> print isduplicated

0 false

2 false

dtype: bool

>>>

重複資料刪除的方法

我們的磁碟備份裝置的容量已經趨於飽和,在資料中心已經沒有足夠的空間來備份pt級的資料,在這種情況下,當我們希望將備份資料儲存乙個月時,卻只能儲存兩到三天。問題是在我們的備份裝置中有太多的重複資料。現在終於有了解決這個問題的辦法,善於抓住機會賺錢的廠商們聲稱他們的新一代 刪除重複資料 產品可以按20 ...

ArrayList去除重複資料和自定義物件

準備了乙個小列子可以試試 test public void test1 public static arraylistremovesame listarr return list 去重的底層其實就是equals方法比較,自定義的物件在實體類裡邊重寫下equals方法就可以 public class ...

c 對xml多屬性節點的增加,刪除,修改操作原始碼

別人的 可以借鑑一下,先保留明天上公司摘抄一下。using system using system.collections using system.componentmodel using system.data using system.drawing using system.web usin...