大資料分析常用pandas函式有哪些

熟練掌握pandas函式都能幫我們在資料分析過程中節省時間。pandas還有很多讓人舒適的用法，這次就為大家介紹5個pandas函式!

大資料分析常用pandas函式有哪些由python大資料分析編譯。

一、 explode

explode用於將一行資料展開成多行。比如說dataframe中某一行其中乙個元素包含多個同型別的資料，若想要展開成多行進行分析，這時候explode就派上用場，而且只需一行**，非常節省時間。

用法：

引數作用：

column ：str或tuple

以下表中第三行、第二列為例，展開[2,3,8]：

使用explode輕鬆將[2,3,8]轉換成多行，且行內其他元素保持不變。

二、 nunique

nunique用於計算行或列上唯一值的數量，即去重後計數。這個函式在分類問題中非常實用，當不知道某字段中有多少類元素時，nunique能快速生成結果。

用法：

引數作用：

1)axis：int型，0代表行，1代表列，預設0;

2)dropna：bool型別，預設為true，計數中不包括nan;

先建立乙個df：

對year列進行唯一值計數：

輸出：10 對整個dataframe的每乙個字段進行唯一值計數：

三、infer_objects

infer_objects用於將object型別列推斷為更合適的資料型別。

用法：

pandas支援多種資料型別，其中之一是object型別。object型別包括字串和混合值(數字及非數字)。

object型別比較寬泛，如果可以確定為具體資料型別，則不建議用object。

使用infer_objects方法將object推斷為int型別：

memory_usage用於計算dataframe每一列的位元組儲存大小，這對於大資料表非常有用。

用法：

引數解釋：index：指定是否返回df中索引位元組大小，預設為true，返回的第一行即是索引的記憶體使用情況;deep：如果為true，則通過查詢object型別進行系統級記憶體消耗來深入地檢查資料，並將其包括在返回值中。

首先建立乙個df，共2列，1000000行。

返回每一列的占用位元組大小：

第一行是索引index的記憶體情況，其餘是各列的記憶體情況。

五、replace

顧名思義，replace是用來替換df中的值，賦以新的值。

用法：引數解釋：

1)to_replace：被替換的值

2)value：替換後的值

3)inplace：是否要改變原資料，false是不改變，true是改變，預設是false

4)limit：控制填充次數

5)regex：是否使用正則,false是不使用，true是使用，預設是false

6)method：填充方式，pad,ffill,bfill分別是向前、向前、向後填充

建立乙個df：

將a全部替換為d：

將b替換為e，c替換為f：

摘自：

Pandas資料分析常用方法

指定索引列 names 列名陣列，預設值 none,用於讀取資料的指定列名 eg1 catering sale catering sale.xls data pd.read excel catering sale,names date sale 外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接...

資料分析 pandas

pandas是乙個強大的python資料分析的工具包，它是基於numpy構建的，正因pandas的出現，讓python語言也成為使用最廣泛而且強大的資料分析環境之一。pandas的主要功能具備對其功能的資料結構dataframe，series 整合時間序列功能提供豐富的數算和操作靈活處理缺失...

資料分析的pandas常用方法

pandas模組為我們提供了非常多的描述性統計分析的指標函式，如總和均值最小值最大值等，我們來具體看看這些函式首先隨機生成三組資料 np.random.seed 1234 d1 pd.series 2 np.random.normal size 100 3 d2 np.random.f 2,...

大資料分析常用pandas函式有哪些

Pandas資料分析常用方法

資料分析 pandas

資料分析的pandas常用方法

相關推薦