pandas文字資料

2021-10-07 12:57:14 字數 780 閱讀 7178

文字資料

string型別的性質

string與object的區別

① 字元訪問方法(string accessor methods,如str.count)會返回相應資料的nullable型別,而object會隨著缺失值的存在而改變返回型別;

② 某些series⽅法不能在string上使⽤,如 series.str.decode(),因為儲存的是字串而不是位元組;

③ string型別在缺失值儲存或運算時,型別會廣播為pd.na,而不是浮點型np.nan;

拆分與拼接

str.split方法

expand引數控制了是否將列拆開,n引數代表最多分割多少次。

str.cat方法

1、對於單列合併,就是將所有元素進行字元合併為乙個字串;

2、對於雙列合併,是對應索引的元素進行合併;

3、多列分割可分為多表拼接和多series拼接。

替換str.replace()函式的運用。(替換中涉及到正規表示式,我掌握的不好。)

子串匹配與提取

1、str.extract方法

2、str.extractall方法

3、str.contains和str.match方法

常用字串方法

過濾型方法

1、str.strip:常⽤於過濾空格。

2、str.lower:將大寫字串轉換為小寫字串;str.upper:將小寫字串轉換為大寫字串。

3、str.swapcase和str.capitalize,分別表示交換字母大小寫和大寫首字母。

Pandas 文字資料方法 slice

series.str.slice start none,stop none,step none 按下標擷取字串 引數 start 整型或缺省 stop 整型或缺省 step 整型或缺省 returns 序列series 索引index series.str.slice replace start n...

學習pandas 讀入文字資料

import pandas as pd pd.read csv filepath or buffer 檔案路徑 不要包含中文 sep 列分隔符 header infer 指定資料中的第幾行作為變數名 names none 自定義變數名列表 index col none 將被作為索引的列,多列時只能使...

pandas學習 文字資料

1 a df pd.read csv r d python python3.6 pysl pre data string data one.csv index col 人員編號 astype str temp df 姓名 df 國籍 國人,性別 df 性別 生於 df 出生年 年 df 出生月 月 ...