基於pandas的文字資料(字串)處理

2021-10-07 12:50:58 字數 1189 閱讀 9771

二、拆分與拼接

三、 替換

四、子串匹配與提取

五、常用字串方法

string型別和object不同之處有三:

字元訪問方法(string accessor methods,如str.count)會返回相應資料的nullable型別,而object會隨缺失值的存在而改變返回型別

某些series方法不能在string上使用,例如: series.str.decode(),因為儲存的是字串而不是位元組

string型別在缺失值儲存或運算時,型別會廣播為pd.na,而不是浮點型np.nan

為迎合pandas的發展模式,這裡仍全部用string來操作字串。

如果將乙個其他型別(如int、float、bool型資料)的容器直接轉換string型別可能會出錯:

當下正確的方法是分兩部轉換,先轉為str型object,在轉為string型別:

廣義上的替換,就是指str.replace函式的應用,fillna是針對缺失值的替換,提到替換,就不可避免地接觸到正規表示式。

與extract只匹配第乙個符合條件的表示式不同,extractall會找出所有符合條件的字串,並建立多級索引(即使只找到乙個)

檢查每一位是否都是數字

pandas文字資料

文字資料 string型別的性質 string與object的區別 字元訪問方法 string accessor methods,如str.count 會返回相應資料的nullable型別,而object會隨著缺失值的存在而改變返回型別 某些series 法不能在string上使 如 series....

Pandas 文字資料方法 slice

series.str.slice start none,stop none,step none 按下標擷取字串 引數 start 整型或缺省 stop 整型或缺省 step 整型或缺省 returns 序列series 索引index series.str.slice replace start n...

學習pandas 讀入文字資料

import pandas as pd pd.read csv filepath or buffer 檔案路徑 不要包含中文 sep 列分隔符 header infer 指定資料中的第幾行作為變數名 names none 自定義變數名列表 index col none 將被作為索引的列,多列時只能使...