pandas入門 十三

2021-10-01 21:57:24 字數 1845 閱讀 2058

另一種常用於統計建模或機器學習的轉換方式是:將分類變數轉換為「啞變數」或「指標矩陣」。

dataframe的某一列中含有k個不同的值,則可以派生出乙個k列矩陣或 dataframe(其值全為1和0)。pandas有乙個get_dummies函式可以實現該功能。使用之前的乙個dataframe例子

***********************************==

給指標dataframe的列加上乙個字首,以便能夠跟其他資料進行 合併。get_dummies的prefix引數可以實現該功能

對於很大的資料,用這種方式構建多成員指標變數就會變得非常慢。最 好使用更低階的函式,將其寫入numpy陣列,然後結果包裝在dataframe中。

python能夠成為流行的資料處理語言,部分原因是其簡單易用的字串和文字處理功能。大部分文字運算都直接做成了字串物件的內建方法。對於更為複雜的模式匹配和文字操作,則可能需要用到正規表示式。pandas對此進行了加強,它使你能夠對整組資料應用字串表示式和正規表示式,而且能處理缺失資料。

對於許多字串處理和指令碼應用,內建的字串方法已經能夠滿足要求了。以逗號分隔的字串可以用split拆分成數段:

split常常與strip一起使用,以去除空白符(包括換行符)

利用加法,可以將這些子字串以雙冒號分隔符的形式連線起來

但這種方式並不是很實用。一種更快更符合python風格的方式是,向字串"::"的 join方法傳入乙個列表或元組

其它方法關注的是子串定位。檢測子串的最佳方式是利用python的in關鍵字,還可 以使用index和find

注意find和index的區別:如果找不到字串,index將會引發乙個異常(而不是返回 -1)

count可以返回指定子串的出現次數

***********************************==

replace用於將指定模式替換為另乙個模式。通過傳入空字串,它也常常用於刪除模式

Pandas 快速入門

pandas其實很簡單,共有三種資料結構。其中一維為series,二維為dataframe,三維為panel.先說series,numpy陣列,python列表等都可以生成series。它的結構分為兩部分,索引和值。獲取索引的方式為 index 方法,獲取值得方式為values 方法。而資料框又多乙...

pandas入門 十一

跟series中的值一樣,軸標籤也可以通過函式或對映進行轉換,從而得到乙個新的不同標籤的物件。軸還可以被就地修改,而無需新建乙個資料結構。跟series一樣,軸索引也有乙個map方法 將其賦值給index,這樣就可以對dataframe進行就地修改 想要建立資料集的轉換版 而不是修改原始資料 比較實...

pandas入門 十四

正規表示式提供了一種靈活的在文字中搜尋或匹配 通常比前者複雜 字串模式的方式。正規表示式,常稱作regex,是根據正規表示式語言編寫的字串。python內建的re模組負責對字串應用正規表示式。re模組的函式可以分為三個大類 模式匹配 替換以及拆分。當然,它們之間是相 輔相成的。乙個regex描述了需...