4字串區別文字 Pandas 五文字資料

pandas是python的乙個資料分析庫，提供如dataframe等十分容易操作的資料結構，是近年做資料分析時不可或缺的工具之一。

但是pandas知識點繁多，同乙個操作可以用多種不同的方法實現，再加上網上滿坑滿谷的教學資料，質量參差不齊，導致很多初學者常常看完後不知所云，且很快就忘掉了。本系列正是從這點出發，將60個常用的pandas知識點由淺入深地分成4大類別：pandas基礎理論、三類操作（分組、變形、合併）、四類資料（缺失資料、文字資料、分類資料、時序資料）、綜合例子（帶你再次完整走一遍前面所有操作）。保證你看完後足以應付日常90%的情景。

廢話不多說啦，讓我們開始這趟pandas旅程吧！

文末放上**

string型別是pandas1.0之後的新特性，用來儲存文字資料。在此之前，都是用object型別儲存文字資料。雖然目前官方為了相容性，預設還是用object，但是官方建議大家使用string。因為後期會對string做更多效能與記憶體上的優化。

string與object的主要區別有如下兩點：

某些series方法不能在string上使用，例如： series.str.decode()，因為儲存的是字串而不是位元組

除此之外，兩者在當前版本下(1.05)基本完全一致。

object是預設文字型別，所以直接建立即可，string需要手動指明

string的方法與python中str的方法差不多，都是一些關於操作字串的方法。下面介紹一些常用的操作。

這裡需要注意split後的型別是object，因為現在series中的元素已經不是string，而是乙個list，但是string型別只能含有字串。

expand引數控制了是否將列拆開，n引數代表最多分割多少次

對於單個series而言，就是指所有的元素進行字元合併為乙個字串

對於兩個series合併而言，是索引對應的元素進行合併

若索引不是一一對應，則預設左連線

使用sep填充分隔符，na_rep作為缺失值補充

使用extract

給extract傳遞乙個正規表示式，提取後預設返回dataframe。不符合正規表示式的用nan補充。返回的dataframe列名為0、1、2....，使用p來自定義列名。

與extract只匹配第乙個符合條件的表示式不同，extractall會找出所有符合條件的字串，並建立多級索引（即使只找到乙個）

replace，與extract一樣，也是傳遞正規表示式。第乙個值寫r開頭的正規表示式，後乙個寫替換的字串。

isnumerical是檢查每一位是否會數字，1.2中包含'.'，所以不是數字（這樣做豈不是只能檢測是否為整數？我感覺這個函式這樣設計挺雞肋的）

**位址

參考

python for data analysiswes mckinney著

pandas cookbooktheodore petrou著

4字串區別文字 Pandas 五文字資料

ue4字串區別文字 UE4 字串的轉換

4 字串分隔

專案4 字串加密

4字串 區別 文字 Pandas 五 文字資料

ue4字串 區別 文字 UE4 字串的轉換

4 字串分隔

專案4 字串加密

相關推薦

4字串區別文字 Pandas 五文字資料

ue4字串區別文字 UE4 字串的轉換