大資料分析常用pandas函式有哪些

2021-10-11 21:48:56 字數 2210 閱讀 3926

熟練掌握pandas函式都能幫我們在資料分析過程中節省時間。pandas還有很多讓人舒適的用法,這次就為大家介紹5個pandas函式!

大資料分析常用pandas函式有哪些由python大資料分析編譯。

一、 explode

explode用於將一行資料展開成多行。比如說dataframe中某一行其中乙個元素包含多個同型別的資料,若想要展開成多行進行分析,這時候explode就派上用場,而且只需一行**,非常節省時間。

用法:

引數作用:

column :str或tuple

以下表中第三行、第二列為例,展開[2,3,8]:

使用explode輕鬆將[2,3,8]轉換成多行,且行內其他元素保持不變。

二、 nunique

nunique用於計算行或列上唯一值的數量,即去重後計數。這個函式在分類問題中非常實用,當不知道某字段中有多少類元素時,nunique能快速生成結果。

用法:

引數作用:

1)axis:int型,0代表行,1代表列,預設0;

2)dropna:bool型別,預設為true,計數中不包括nan;

先建立乙個df:

對year列進行唯一值計數:

輸出:10 對整個dataframe的每乙個字段進行唯一值計數:

三、infer_objects

infer_objects用於將object型別列推斷為更合適的資料型別。

用法:

pandas支援多種資料型別,其中之一是object型別。object型別包括字串和混合值(數字及非數字)。

object型別比較寬泛,如果可以確定為具體資料型別,則不建議用object。

使用infer_objects方法將object推斷為int型別:

memory_usage用於計算dataframe每一列的位元組儲存大小,這對於大資料表非常有用。

用法:

引數解釋:index:指定是否返回df中索引位元組大小,預設為true,返回的第一行即是索引的記憶體使用情況;deep:如果為true,則通過查詢object型別進行系統級記憶體消耗來深入地檢查資料,並將其包括在返回值中。

首先建立乙個df,共2列,1000000行。

返回每一列的占用位元組大小:

第一行是索引index的記憶體情況,其餘是各列的記憶體情況。

五、replace

顧名思義,replace是用來替換df中的值,賦以新的值。

用法:引數解釋:

1)to_replace:被替換的值

2)value:替換後的值

3)inplace:是否要改變原資料,false是不改變,true是改變,預設是false

4)limit:控制填充次數

5)regex:是否使用正則,false是不使用,true是使用,預設是false

6)method:填充方式,pad,ffill,bfill分別是向前、向前、向後填充

建立乙個df:

將a全部替換為d:

將b替換為e,c替換為f:

摘自:

Pandas資料分析常用方法

指定索引列 names 列名陣列,預設值 none,用於讀取資料的指定列名 eg1 catering sale catering sale.xls data pd.read excel catering sale,names date sale 外鏈轉存失敗,源站可能有防盜煉機制,建議將儲存下來直接...

資料分析 pandas

pandas是乙個強大的python資料分析的工具包,它是基於numpy構建的,正因pandas的出現,讓python語言也成為使用最廣泛而且強大的資料分析環境之一。pandas的主要功能 具備對其功能的資料結構dataframe,series 整合時間序列功能 提供豐富的數 算和操作 靈活處理缺失...

資料分析的pandas常用方法

pandas模組為我們提供了非常多的描述性統計分析的指標函式,如總和 均值 最小值 最大值等,我們來具體看看這些函式 首先隨機生成三組資料 np.random.seed 1234 d1 pd.series 2 np.random.normal size 100 3 d2 np.random.f 2,...