pandas記錄之文字資料

2021-10-07 12:55:08 字數 1135 閱讀 6033

特殊字元

資料在收集的過程中由於各種原因,彙總的資料會出現一些出乎預料的問題

#資料中有特殊字元

3090

-396

9`485/7

name: col2, dtype: string

在進行數值統計時很頭痛,一般情況下就是根據報錯資訊逐個replace

df.loc[df[

'col2'].

str.contains(

'0-'),

'col2']=

'0'df.loc[df[

'col2'].

str.contains(

'9`'),

'col2']=

'9'

乙個兩個還好,第三個出現時,已經有點奔潰了

從joyful-pandas中學到了一種使用正規表示式的方法(以下為鏈結)

#部分拆分

df2[

'id'

].astype(

'str'

).astype(

'string').

str.extract(r'(?p《姓名》\w+):(?p《國籍》\w)國人,性別(?p《性別》\w),?'

注意:正規表示式在文字資料處理中能夠減少很多任務作量,需花時間精力學習,多實踐才是王道!

Pandas學習之文字資料

import numpy as np import pandas as pd pd.series 1 1 0 1 1 1 dtype object 上面的資料型別為 object,將其轉化為string型別 pd.series 1 1 astype str astype string 0 1 1 1...

pandas文字資料

文字資料 string型別的性質 string與object的區別 字元訪問方法 string accessor methods,如str.count 會返回相應資料的nullable型別,而object會隨著缺失值的存在而改變返回型別 某些series 法不能在string上使 如 series....

Pandas 文字資料方法 slice

series.str.slice start none,stop none,step none 按下標擷取字串 引數 start 整型或缺省 stop 整型或缺省 step 整型或缺省 returns 序列series 索引index series.str.slice replace start n...