pandas資料處理庫

2021-10-05 18:06:06 字數 4498 閱讀 1241

1、dataframe屬性

屬性或方法

描述dataframe.index

dataframe的index(行標籤)

dataframe.columns、dataframe.columns.tolist()

dataframe的列標籤、將列名轉換為list結構

dataframe.dtypes

返回dataframe的資料型別

dataframe.select_dtypes(self[,include,exclude])

return a subset of the 

dataframe.values

將dataframe中實際資料作為ndarray返回

dataframe.axes

返回乙個列,行軸標籤和列軸標籤作為唯一的成員

dataframe.ndim

資料維度大小,預設為2維

dataframe.size

dataframe中元素個數

dataframe.shape

返回表示dataframe的維度的元組

dataframe.empty

如果dataframe為空,返回true,任何軸的長度都為0

dataframe.memory_usage(self[,index,deep])

dataframe.t

轉置行和列

2、indexing、iteration

方法描述

dataframe.head(self,n)

返回開頭前n行,預設前5行

dataframe.tail(self,n)

返回最後n行,預設最後5行

dataframe.loc

使用column和index進行定位

dataframe.iloc

即index locate,按位置進行定位,引數是整型

dataframe.isin(self,values)

dataframe.where(self,cond[,other,...])

3、計算/描述性統計函式

函式描述

dataframe.abs()

絕對值dataframe.min()、dataframe.max()

最小值、最大值

dataframe.mean()

均值dataframe.median()

中位數dataframe.sum()、dataframe.prod()

和、乘積

dataframe.std()、dataframe.var()

標準差、方差

dataframe.count()

非空資料量

dataframe.cumsum()、dataframe.cumprod()

累計總和、累計乘積

dataframe.cummax()、dataframe.cummin()

累計最大值、累計最小值

dataframe.cov()

協方差,不包括na/null值

dataframe.corr()

計算相關係數,不包括na/null值

dataframe.corrwith()

計算相關係數,不包括na/null值

dataframe.describe()

描述性統計

dataframe.prod()

乘積dataframe.product()

乘積dataframe.rank()

排序dataframe.round()

四捨五入

dataframe.quantile()

返回給定分位數值

dataframe.nunique()

不同值dataframe.skew()

計算偏度

3、缺失資料處理

函式描述

dataframe.dropna()

刪除缺失值

dataframe.fillna()

使用指定方法填充na/nan值

dataframe.dropna(self, axis=0, how='any', thresh=none, subset=none, inplace=false)

引數:axis: 0 or index 刪除包含缺失值的行,1 or columns 刪除包含缺失值的列,預設0;

how:any,all,預設any,any:只要含有na,刪除該行/列;all:只有該行/列均為na才刪除;

thresh:指定行/列具有非na的數目,即至少有thresh個非na時才保留;

subset:對特定的列進行缺失值刪除處理;

inplace:true修改原有的dataframe,預設false。

dataframe.fillna(self, value=none, method=none, axis=none, inplace=false, limit=none, downcast=none) 

引數:value: 變數、字典、series,dataframe;用於填充填充缺失值,或指定為每個索引(對於series)或列(對於dataframe)的缺失值使用字典/series/dataframe的值填充;

method: , 預設none, pad/ffill表示向後填充空值,backfill/bfill表示向前填充空值;

axis: ;

inplace: boolean, 預設為false;

limit: int, 預設為none,如果指定了方法,則這是連續的nan值的前向/後向填充的最大數量。

downcast: dict, 預設none, 字典中的項為型別向下轉換規則。

dataframe.replace(self, to_replace=none, value=none, inplace=false, limit=none, regex=false, method='pad')

引數:

4、reshaping, sorting, transposing

函式描述

dataframe.sort_values(by,axis=0,ascending=true,inplace=false)

按照值排序

dataframe.sort_index(axis=0,ascending=false,inplace=false)

按照索引排序

dataframe.reset_index(drop=true)

重置索引,刪除原索引

dataframe.pivot_table(index,columns,values,aggfunc="mean")

透視表

dataframe.sort_values(by,axis=0,ascending=true,inplace=false,kind="quicksort",na_position="last",ignore_index=false)

引數:by:str or list of str;如果axis=0,by="列名";如果axis=1,by="行名";

axis: 0 or index,1 or columns,預設為0,按照索引排序,即縱向排序,為1橫向排序;

ascending:布林型,true公升序,false降序;

inplace:布林型,是否用排序後的資料框替換現有的資料框;

kind:排序方法,, 預設"quicksort"。

na_position:, 預設"last",預設缺失值排在最後面

ignore_index:

return:dataframe,如果inplace=false,返回排序後的dataframe。

dataframe.sort_index(self,axis=0,level=none,ascending=true,inplace=false,kind="quicksort",na_position="last",sort_remaining=true, ignore_index: bool = false)

引數:axis: 0 按照行名排序,1按照列名排序;

level:預設none,否則按照給定的level順序排列

ascending:布林型,true公升序,false降序;

inplace:布林型,是否用排序後的資料框替原來有的資料框;

kind:排序方法,, 預設"quicksort"。

na_position:, 預設"last",預設缺失值排在最後

ignore_index:

return:dataframe,如果inplace=false,返回排序後的dataframe。

dataframe.pivot_table(self, values=none, index=none, columns=none, aggfunc='mean', fill_value=none, margins=false, dropna=true, margins_name='all', observed=false) → 'dataframe'

引數:

pandas 資料處理

pandas中資料可以分為series,dataframe,panel分別表示一維至三維資料。其中在構造時,index表示行名,columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...

pandas資料處理

dataframe.duplicated subset none,keep first 判斷dataframe中的資料是否有重複 必須一行中所有資料都重複才算重複,只能判斷行,不能判斷列 返回series dataframe.drop duplicates subset none,keep firs...

Pandas資料處理

資料處理 pandas from sklearn.preprocessing import minmaxscaler data 1,2 0.5,6 0.10 1,18 將 numpy 轉換成 pd 表 pd.dataframe data 歸一化 0,1 之間 scaler minmaxscaler ...