Pandas 統計功能

2021-10-12 17:31:26 字數 1384 閱讀 1802

dataframe 描述性統計和匯**計

count

() 非na值的個數

describe

() 計算series和dataframe各列的匯**計集合

min(),

max(

) 計算最小值、最大值

argmin()

,argmax

() 計算最小值與最大值所在的索引位置(整數)

idxmin()

,idxmax

() 計算最小值與最大值所在的索引標籤

quantile

() 計算樣本的從0到間的分位數

sum(

) 加和

mean

() 求均值

median

() 中位數(50

%分位數)

mad(

) 平均值的平均絕對偏差

prod

() 所有值的積

var(

) 值的樣本方差

std(

) 值的樣本標準差

skew

() 樣本偏度(第三時刻)值

kurt

() 樣本峰度(第四時刻)值

cumsum

() 累計值

cummin()

,cummax

() 累計值的最小值、最大值

cumprod

() 值的累計積

diff

() 計算第乙個算術差值(對時間序列有用)

pct_change

() 計算百分比

注:以上函式可設定axis屬性值

data.

corr

()、data.

cov(

) 返回dataframe兩兩列之間的相關性與協方差

data.

corrwith

(data[

'col'

]) 返回dataframe中的各列與單列的相關性

取出單列的唯一值:

uniques = data[

'a']

.unique

() 返回其中的唯一值,返回值不一定排好序,可 uniques.

sort

()進行排序

返回單列包含各種值的個數:

data[

'a']

.value_counts

() or pd.

value_counts

(data[

'a']

,sort=true)

data[

'a']

.isin([

1,3,

5]) 判斷單列中的數值是否存在於給定的列表中

Pandas 統計函式

統計方法有助於理解和分析資料的行為。現在我們將學習一些統計函式,可以將這些函式應用到pandas的物件上。系列,datframes和panel都有pct change 函式。此函式將每個元素與其前乙個元素進行比較,並計算變化百分比。import pandas as pd import numpy a...

Pandas 日期功能

日期功能擴充套件了時間序列,在財務資料分析中起主要作用。在處理日期資料的同時,我們經常會遇到以下情況 通過指定週期和頻率,使用date.range 函式就可以建立日期序列。預設情況下,範圍的頻率是天。參考以下示例 import pandas as pd datelist pd.date range ...

pandas排序與統計

python for data analysis sort index 對行或列索引進行排序 in 1 import pandas as pd in 2 from pandas import dataframe,series in 3 obj series range 4 index d a b c...