pandas資料處理之groupby的常用用法

groupby(by=none, axis=0, level=none, as_index=true, sort=true, group_keys=true, squeeze=false, **kwargs) 用於確定groupby的組。如果by是乙個函式，那麼會呼叫物件索引的每個值。如果傳遞了乙個dict或series,則將使用series或dict的值來確定組。乙個str或者乙個strs列表可以通過自己的列傳遞給group。 2、axis：軸，int值，預設為0 3、level：如果axis是乙個multiindex（分層），則按特定的級別分組。int值，預設為none 4、as_index：對於聚合輸出，返回帶有組標籤的物件作為索引。as_index=false實際上是「sql風格」分組輸出，boolean值，預設為true。 5、sort：排序。關閉此功能以獲得更好的效能。boolean值，預設true。 7、squeeze：盡可能減少返回型別的維度，否則返回一致的型別。boolean值，預設false。

1.按照指定列進行分類

g = data_train.groupby(['sibsp','survived']) ##將sibsp與survived列作為分類依據
df = pd.dataframe(g.count()['passengerid']) ##分類依據後，passengerid作為特徵屬性量
也可以用這個，.fare指的是經過前面兩個分組之後，fare作為特徵屬性展示
#票價與pclass和embarked有關,所以用train分組後的平均數填充
2.抽取指定列來進行統計分類
##進一步觀察資料與結果的關係，利用相關性分析
pclass_relate=train.groupby(['pclass'])['pclass','survived'].mean() ##分類準則是pclass
# print(group_relate)
train[['pclass','survived']].groupby(['pclass']).mean().plot(kind='bar') ##等效於data.plot.bar(),柱狀圖
3.還遇到過利用分組進行排序
pandas 資料處理
pandas中資料可以分為series，dataframe，panel分別表示一維至三維資料。其中在構造時，index表示行名，columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...
pandas資料處理
dataframe.duplicated subset none,keep first 判斷dataframe中的資料是否有重複 必須一行中所有資料都重複才算重複，只能判斷行，不能判斷列 返回series dataframe.drop duplicates subset none,keep firs...
Pandas資料處理
資料處理 pandas from sklearn.preprocessing import minmaxscaler data 1,2 0.5,6 0.10 1,18 將 numpy 轉換成 pd 表 pd.dataframe data 歸一化 0，1 之間 scaler minmaxscaler ...

pandas資料處理之groupby的常用用法

pandas 資料處理

pandas資料處理

Pandas資料處理

相關推薦