pandas 分組聚合

2021-10-04 14:52:16 字數 3754 閱讀 6303

綜合使用

資料鏈結

統計每個國家的星巴克的數量

按照單字段聚合

# -

*- codeing = utf-8-

*-import pandas as pd

import numpy as np

df = pd.

read_csv

("../data/starbucks_store_worldwide.csv"

)# 按國家進行分組後會有很多列 然後取brand列進行統計,結果是各個國家的星巴克的數量

all_country_data_count = df.

groupby

(by=

"country")[

"brand"].

count()

print

(all_country_data_count )

統計美國的星巴克的數量
# -

*- codeing = utf-8-

*-import pandas as pd

import numpy as np

df = pd.

read_csv

("../data/starbucks_store_worldwide.csv"

)# 按國家進行分組後會有很多列 然後取brand列進行統計,結果是各個國家的星巴克的數量

all_country_data = df.

groupby

(by=

"country")[

"brand"].

count()

# 統計美國的星巴克的數量

us_data_count= all_country_data[

"us"

]print

(us_data_count)

統計美國每個省份星巴克的數量
# -

*- codeing = utf-8-

*-import pandas as pd

import numpy as np

df = pd.

read_csv

("../data/starbucks_store_worldwide.csv"

)# 選國家家為美國的,然後按照省份進行分組,取星巴克這一列,進行統計

us_province_data = df[df[

"country"]==

"us"].

groupby

(by=

"state/province")[

"brand"].

count()

print

(us_province_data)

統計美國ak省份星巴克的數量 法1

按照多欄位聚合

# -

*- codeing = utf-8-

*-import pandas as pd

import numpy as np

df = pd.

read_csv

("../data/starbucks_store_worldwide.csv"

)# 按照國家和國家中的省份進行分組 然後取品牌這一列進行統計

# 分組後形成的是series

all_country_count = df.

groupby

(by=

["country"

,"state/province])["brand"]

.count()

print

(all_country_count[

"us"][

"ak"

]) # 第一種索引方式

#print(all_country_count["us", "ak"]) # 第二種索引方式

統計美國ak省份星巴克的數量 法2
# -

*- codeing = utf-8-

*-import pandas as pd

import numpy as np

df = pd.

read_csv

("../data/starbucks_store_worldwide.csv"

)# 按照國家和國家中的省份進行分組 然後取品牌這一列進行統計

# 分組後形成的是dataframe 索引是復合索引

all_country_count = df.

groupby([

"country"

,"state/province"])

[["brand"]]

.count()

print

(all_country_count.loc[

"us"

].loc[

"ak"

])

分組之後,往往會進行後續的處理,所以搭配一些函式介紹

資料建立連線 :從高階建立部分看

資料建立好後的部分內容如下

賣菜人乙個月的賣菜情況

item:菜名 salesman:賣菜人 weight:進菜重量 price:賣菜**

分組之後普通函式的使用

統計這乙個月,張大媽,李大媽,趙大爺,銷售了多少斤蔬菜

ret = df.

groupby([

'salesman'])

['weight'

]ret.

sum(

)

統計出攤次數 賣菜總重量 乙個月平均每天賣菜的重量(保留2位小數)出攤次數舉例:例如張大媽賣菜 100 200 300 斤, 總共買了三次,所以出攤次數為3次

# 出攤次數 賣菜總重量 乙個月平均每天賣菜的重量(保留2位小數)

分組之後 agg() 函式的使用

統計每個銷售人員乙個月賣的3種菜的總重量和每種菜的平均**

pandas聚合運算,分組運算

分組運算,先根據一定規則拆分後的資料,然後對資料進行聚合運算,如前面見到的 mean sum 等就是聚合的例子。聚合時,拆分後的第乙個索引指定的資料都會依次傳給聚合函式進行運算。最後再把運算結果合併起來,生成最終結果。先生成乙個dataframe 用key1的索引分類再求平均 df.groupby ...

pandas資料分組和聚合操作

python for data analysis dataframe可以在其行 axis 0 或列 axis 1 上進行分組。然後,將乙個函式應用到各個分組並產生新值。最後,所有這些函式的執行結果會被合併到最終的結果物件中去。groupby的size方法可以返回乙個含有分組大小的series。for...

pandas 高階處理 分組與聚合

分組與聚合通常是分析資料的一種方式,通常與一些統計函式一起使用,檢視資料的分組情況 想一想其實剛才的交叉表與透視表也有分組的功能,所以算是分組的一種形式,只不過他們主要是計算次數或者計算比例!看其中的效果 案例 不同顏色的不同筆的 資料 col pd.dataframe color object p...