資料分析 pandas(二)

2021-09-27 09:28:48 字數 1800 閱讀 1972

對時間型別的資料分析的前提就是將原本為字串的時間轉換為標準時間

類名稱說明

timestamp

表示某個時間點

period

表示單個時間跨度,某個時間段

timedelta

不同的單位時間,而非具體的某個時間

datetimeindex

一組timestamp構成的index,可以用來作為series或者dataframe的索引

periodtimeindex

一組period構成的index,可以用來作為series或者dataframe的索引

timedeltaindex

一組timedelta構成的index,可以用來作為series或者dataframe的索引

用to_datatime函式轉換timestamp

還可以將資料單獨提取出來將其轉換為datatimeindex或者periodindex,轉換periodindex需要通過freq引數指定時間間隔。

引數名稱

說明data

array

freq

string,表示時間間隔頻率

start

接受string,表示時間資料的起始點

periods

需要生成的週期數目

endstring。表示生成時間規制的終結點

tztimezone,資料的時區

name

ing,string 指定datetimeindex的名字

timedelta類不僅可以使用正數還可以使用負數,能夠實現時間的算術運算。所以可以實現時間平移和相減

分組函式:df.groupby(by=none,axis=0,level=none,as_index=true,sort=true,group_key=true,squeeze=false)

引數名稱

說明by

axis

int,操作的軸向

level

int或索引名,標籤級別

as_index

bool值。聚合後的聚合標籤是否以dataframe輸出

sort

bool值。是否進行分組

squeeze

bool值。對返回資料進行降維

聚合:df.agg(func,axis=0)或者df.aggregate(func,axis=0)

可以使用agg方法一次求出當前資料的所有菜品的銷量的售價總和和均值

detail[["counts",'amounts'].agg([np.sum,np.mean]))

如果要對字段分開操作,則使用字典方法

detail.agg())

pd.pivot_table(data,values=none,index=none,columns=none,aggfunc='mean',margins=false,dropna=true)

引數名稱

說明data

dataframe,建立表的資料

value

字串,想要聚合的欄位名

index

int或string,行分組鍵

columns

string或list,列分組鍵

aggfunc

function。聚合函式

dropna

bool,刪除所有nan的值

pd.crosstab(index,columns,values=none,rownames=none,colnames=none...)

交叉透視表的引數和透視表引數保持一致,index,columns,value填入的是dataframe中的某一列

資料分析 pandas

pandas是乙個強大的python資料分析的工具包,它是基於numpy構建的,正因pandas的出現,讓python語言也成為使用最廣泛而且強大的資料分析環境之一。pandas的主要功能 具備對其功能的資料結構dataframe,series 整合時間序列功能 提供豐富的數 算和操作 靈活處理缺失...

python資料分析 Pandas

import pandas as pd series 可以看做乙個定長的有序字典。基本任意的一維資料都可以用來構造 series 物件 s pd.series 1,2,3.0,abc s1 pd.series data 1,3,5,7 index a b x y 通過下標獲取資料 s1 a seri...

資料分析之Pandas

from pandas import series,dataframe import pandas as pd import numpy as np states california ohio oregon texas year 2000,2001,2002,2003 value 35000,71...