pandas學習，第五天

三、變換和過濾

四、跨列分組

總結

df.groupby(分組依據)
[資料**]
.使用操作

可以是列名，條件

列名的話：會根據列名中的種類進行劃分，這樣用時，列中的非重複資料較少

條件：需要時將列中根據條件進行分類後，再使用

傳入列名只是一種簡便的記號，事實上等價於傳入的是乙個或多個列，最後分組的依據來自於資料**組合的unique值，通過drop_duplicates就能知道具體的組類別

在介紹agg之前，首先要了解一些直接定義在groupby物件的聚合函式，因為它的速度基本都會經過內部的優化，使用功能時應當優先考慮。根據返回標量值的原則，包括如下函式：max/min/mean/median/count/all/any/idxmax/idxmin/mad/nunique/skew/quantile/sum/std/var/sem/size/prod

1.使用多個函式

gb.agg(
['sum'
,'idxmax'
,'skew'
])

2.對特定的列使用特定的聚會函式

gb.agg(
)

3.使用自定義函式

在 agg 中可以使用具體的自定義函式，需要注意傳入函式的引數是之前資料來源中的列，逐列進行計算

gb.agg(
lambda x: x.mean(
)-x.
min(
))

4.聚合結果重新命名

gb.agg([(
'range'
,lambda x: x.
max(
)-x.
min())
,('my_sum'
,'sum')]
)

1.變換函式與transform方法

變換函式的返回值為同長度的序列，最常用的內建變換函式是累計函式：cumcount/cumsum/cumprod/cummax/cummin，它們的使用方式和聚合函式類似，只不過完成的是組內累計操作

當用自定義變換時需要使用transform方法，被呼叫的自定義函式，其傳入值為資料來源的序列，與agg的傳入型別是一致的，其最後的返回結果是行列索引與資料來源一致的dataframe

2. 組索引與過濾

過濾在分組中是對於組的過濾，而索引是對於行的過濾

組過濾作為行過濾的推廣，指的是如果對乙個組的全體所在行進行統計的結果返回 true 則會被保留， false 則該組會被過濾，最後把所有未被過濾的組其對應的所在行拼接起來作為 dataframe 返回。

在groupby物件中，定義了filter方法進行組的篩選，其中自定義函式的輸入引數為資料來源構成的 dataframe 本身

加油，堅持就是勝利，考試加油！

pandas學習，第五天

學習第五天

Java學習第五天

C 學習第五天

pandas學習，第五天

學習第五天

Java學習第五天

C 學習第五天

相關推薦