pandas 資料去重

2021-10-08 00:23:55 字數 1233 閱讀 7835

# 讀取csv格式的資料

df = pd.

read_csv

("../data/imdb-movie-data.csv"

)# 去重 統計導演的人數 法1

director_count1 =

len(

set(df[

'director'].

tolist()

))print

(director_count1)

# 去重 統計導演的人數 法2

director_count2 =

len(df[

'director'].

unique()

) # unique

()只能用在series上 並且是一維的

print

(director_count2)

# 去重 獲取演員的人數

actors_list = df[

'actors'

].str.

split

(", ").

tolist()

actors_count =

len(

set(j for i in actors_list for j in i)

)print

(actors_count)

資料形式 看案例2

# -

*- codeing = utf-8-

*-import pandas as pd

df = pd.

read_csv

('../data/911.csv'

)temp_list = df[

'title'

].str.

split

(": ").

tolist()

# 去重 統計報警類別的次數

category_count =

len(

set(i[0]

for i in temp_list)

)print

(category_count)

Pandas 資料去重

drop duplicats 方法去重 對 dataframe 資料去重 示例 df.drop duplicats subset month day time keep last inplace true drop duplicats引數說明 引數subset subset用來指定特定的列,預設所有...

pandas去重方法

資料去重可以使用duplicated 和drop duplicates 兩個方法。dataframe.duplicated subset none,keep first 返回boolean series表示重複行 引數 subset 列標籤或標籤序列,可選 僅考慮用於標識重複項的某些列,預設情況下使...

pandas 22 資料去重處理

資料去重可以使用duplicated 和drop duplicates 兩個方法。dataframe.duplicated subset none,keep first 返回boolean series表示重複行 引數 subset 列標籤或標籤序列,可選 僅考慮用於標識重複項的某些列,預設情況下使...