pandas基礎學習筆記4

二、其他變形方法

三、啞變數與因子化

一般狀態下，資料在dataframe會以壓縮（stacked）狀態存放，兩個類別被疊在一列中，pivot函式可將某一列作為新的cols：

此外，pivot函式具有很強的侷限性，除了功能上較少之外，還不允許values**現重複的行列索引對（pair）

注意：更多的時候會選擇使用強大的pivot_table函式

pivot_table由於功能更多，速度上自然是比不上原來的pivot函式：

pandas中提供了各種選項，下面介紹常用引數：

1） aggfunc：對組內進行聚合統計，可傳入各類函式，預設為』mean』

2） margins：彙總邊際狀態

3）行、列、值都可以為多級

交叉表是一種特殊的透視表，典型的用途如分組統計

交叉表的功能也很強大（但目前還不支援多級分組），重要的引數有：

1） values和aggfunc：分組對某些資料進行聚合操作，這兩個引數必須成對出現

2）除了邊際引數margins外，還引入了normalize引數，可選』all』,『index』,'columns』引數值

melt函式可以認為是pivot函式的逆操作，將unstacked狀態的資料，壓縮成stacked，使「寬」的dataframe變「窄」

melt函式中的id_vars表示需要保留的列，value_vars表示需要stack的一組列

1）stack：這是最基礎的變形函式，總共只有兩個引數：level和dropna

stack函式可以看做將橫向的索引放到縱向，因此功能類似與melt，引數level可指定變化的列索引是哪一層（或哪幾層，需要列表）

2）unstack：stack的逆函式，功能上類似於pivot_table

##1、dummy variable（啞變數）

該方法主要用於自然數編碼，並且缺失值會被記做-1，其中sort引數表示是否排序後賦值

Pandas基礎學習筆記

python data analysis library 或 pandas 是基於numpy 的一種工具，該工具是為了解決資料分析任務而建立的。pandas 納入了大量庫和一些標準的資料模型，提供了高效地操作大型資料集所需的工具。pandas提供了大量能使我們快速便捷地處理資料的函式和方法 impo...

Pandas學習筆記 02 pandas基礎

第二章 pandas基礎目錄2 基本資料結構 3 常用基本函式 4 視窗物件 read csvread tableread excel 公共引數 header none表示第一行不作為列名 index col表示把某一列或幾列作為索引 usecols表示讀取的列，預設讀取所有的列 parse da...

pandas基礎學習筆記二

二多級索引三索引設定 3.set index和reset index 4.rename axis和rename 四常用索引型函式五重複元素處理六抽樣函式第2章索引.ipynb 寫在前面的，按照教程中的內容都在電腦上敲了一遍但還是感覺雲裡霧裡的。知識點很多，也有很多經驗的傳授，回...

pandas基礎學習筆記4

Pandas基礎學習筆記

Pandas學習筆記 02 pandas基礎

pandas基礎學習筆記二

相關推薦