4字串 區別 文字 Pandas 五 文字資料

2021-10-16 04:53:48 字數 2150 閱讀 6927

pandas是python的乙個資料分析庫,提供如dataframe等十分容易操作的資料結構,是近年做資料分析時不可或缺的工具之一。

但是pandas知識點繁多,同乙個操作可以用多種不同的方法實現,再加上網上滿坑滿谷的教學資料,質量參差不齊,導致很多初學者常常看完後不知所云,且很快就忘掉了。本系列正是從這點出發,將60個常用的pandas知識點由淺入深地分成4大類別:pandas基礎理論、三類操作(分組、變形、合併)、四類資料(缺失資料、文字資料、分類資料、時序資料)、綜合例子(帶你再次完整走一遍前面所有操作)。保證你看完後足以應付日常90%的情景。

廢話不多說啦,讓我們開始這趟pandas旅程吧!

文末放上**

string型別是pandas1.0之後的新特性,用來儲存文字資料。在此之前,都是用object型別儲存文字資料。雖然目前官方為了相容性,預設還是用object,但是官方建議大家使用string。因為後期會對string做更多效能與記憶體上的優化。

string與object的主要區別有如下兩點:

某些series方法不能在string上使用,例如: series.str.decode(),因為儲存的是字串而不是位元組

除此之外,兩者在當前版本下(1.05)基本完全一致。

object是預設文字型別,所以直接建立即可,string需要手動指明

string的方法與python中str的方法差不多,都是一些關於操作字串的方法。下面介紹一些常用的操作。

這裡需要注意split後的型別是object,因為現在series中的元素已經不是string,而是乙個list,但是string型別只能含有字串。

expand引數控制了是否將列拆開,n引數代表最多分割多少次

對於單個series而言,就是指所有的元素進行字元合併為乙個字串

對於兩個series合併而言,是索引對應的元素進行合併

若索引不是一一對應,則預設左連線

使用sep填充分隔符,na_rep作為缺失值補充

使用extract

給extract傳遞乙個正規表示式,提取後預設返回dataframe。不符合正規表示式的用nan補充。返回的dataframe列名為0、1、2....,使用p來自定義列名。

與extract只匹配第乙個符合條件的表示式不同,extractall會找出所有符合條件的字串,並建立多級索引(即使只找到乙個)

replace,與extract一樣,也是傳遞正規表示式。第乙個值寫r開頭的正規表示式,後乙個寫替換的字串。

isnumerical是檢查每一位是否會數字,1.2中包含'.',所以不是數字(這樣做豈不是只能檢測是否為整數?我感覺這個函式這樣設計挺雞肋的)

**位址

參考

python for data analysiswes mckinney著

pandas cookbooktheodore petrou著

ue4字串 區別 文字 UE4 字串的轉換

建立fstring fstringtesthudstring fstring text this is my test fstring.fstring,fname,ftext 設定字串變數文字時應使用 text 巨集。如未指定 text 巨集,將使用 ansi 對文字進行編碼,會導致支援字元高度受限...

4 字串分隔

連續輸入字串,請按長度為8拆分每個字串後輸出到新的字串陣列 長度不是8整數倍的字串請在後面補數字0,空字串不處理。輸入描述 連續輸入字串 輸入2次,每個字串長度小於100 輸出描述 輸出到長度為8的新字串陣列 示例1 輸入 abc 123456789 輸出 abc00000 12345678 900...

專案4 字串加密

檔名稱 main.cpp,sqstring.cpp,sqstring.h 完成日期 2015年10月23日 版本號 vc 6.0 問題描述 乙個文字串可用事先編制好的字元對映表進行加密。例如,設字元對映表為 abcdefghijklmnopqrstuvwxyz ngzqtcobmuhelkpdawx...