python打卡記錄去重 Python筆記記錄

2021-10-12 11:53:18 字數 1770 閱讀 8032

1、資料清洗檢查空值:

df[df.isna().values == true]

df = df.dropna(how='any', axis=0)

2、資料清洗去重

df1.drop_duplicates(subset=['user_id','item_id','time'],keep='first',inplace=true)

df1.info()

3、dataframe資料的set_index() 和reset_index()set_index()

in [307]: data

out[307]:

a b c d

0 bar one z 1.0

1 bar two y 2.0

2 foo one x 3.0

3 foo two w 4.0

in [308]: indexed1 = data.set_index('c') #單索引

in [309]: indexed1

out[309]:

a b d

cz bar one 1.0

y bar two 2.0

x foo one 3.0

w foo two 4.0

in [310]: indexed2 = data.set_index(['a', 'b'])#復合索引

in [311]: indexed2

out[311]:

c da b

bar one z 1.0

two y 2.0

foo one x 3.0

two w 4.0reset_index():

reset_index可以還原索引,重新變為預設的整型索引

dataframe.reset_index(level=none, drop=false, inplace=false, col_level=0, col_fill=」)

level控制了具體要還原的那個等級的索引

drop為false則索引列會被還原為普通列,否則會丟失

in [318]: data

out[318]:

c da b

bar one z 1.0

two y 2.0

foo one x 3.0

two w 4.0

in [319]: data.reset_index()

out[319]:

a b c d

0 bar one z 1.0

1 bar two y 2.0

2 foo one x 3.0

3 foo two w 4.0

4、dataframe 分組 並 求和

#按照站點名稱分組

temp_number = data.groupby(['站點名稱']).size()

temp_number.index = ['a','b','c','d','e','f']

print(temp_number)

#篩選站點abc的記錄並按照多個字段分別求和

data_abc = data[(data['站點名稱']=='站點a')|(data['站點名稱']=='站點b')|(data['站點名稱']=='站點c')]

data_abc.groupby(['站點名稱']).agg()#只按照一列求和

#按照多列求和

data_abc.groupby(['站點名稱']).agg()

5、dataframe列名重新命名

data_a = data_a.rename(columns=)

sqlserver記錄去重

insert into employee select2,emp name gender department salary from employee select from select row number over partition by emp id order by emp id em...

python 多表去重 Python列表去重

無聊統計了下列表去重到底有多少種方法。1.集合 list set alist 如果要保持順序 import random if name main a random.randint 0,10 for i in xrange 10 b list set a b.sort key a.index 2.字...

python中df去重 python去重函式是什麼

資料去重可以使用duplicated 和drop duplicates 兩個方法。dataframe.duplicated subset none,keep first 返回boolean series表示重複行 引數 subset 列標籤或標籤序列,可選 僅考慮用於標識重複項的某些列,預設情況下使...