資料分析工具pandas

2022-08-01 03:27:18 字數 1138 閱讀 2068

(14)分組運算

原因:聚合運算改變了原始資料的shape

如何保持原始資料的shape?

使用merge的外連線,比較複雜

transform

transform的計算結果和原始資料的shape保持一致

如:grouped.transform(mp.mean)

也可傳入自定義函式

1.資料清洗時資料分析的關鍵一步,直接影響之後的處理工作

2.資料需要修改嗎?由什麼需要修改的嗎?資料應該怎麼調整才能適用於接下來的分析和挖掘?

3.是乙個迭代的過程,實際專案中可能需要不知一次的執行這些清洗操作

4.處理缺失資料

pd.fillna(),pd,dropna()

5.pd.merge

根據單個或者多個鍵將不同的dataframe的行連線起來

模擬資料路的連線操作

預設將重疊的列明作為"外來鍵"進行連線

on顯示指定外來鍵

left_on,左側資料的"外來鍵"

right_on,右側數的"外來鍵"

預設是"內連線(inner)",即結果中的鍵是交集

五二).資料合併

1.pd.concat

(1)沿軸的方向將多個物件合併在一起

(2)numpy的concat:np.concatenate

(3)pd.concat

注意指定軸的方向,預設axis=0

join指定合併的方式,預設為outer

series合併時檢視索引

dataframe合併的時候檢視行索引和列索引

五三).重構

stack

將列索引旋轉為行索引,完成層級索引

dataframe-->series

unstack

將層級索引展開

series-->dataframe

預設操作內層索引,即level=-1

處理重複資料

duplicated()返回布林型的series表示每行是否為重複行

drop_duplicates()過濾重複行

預設判斷全部列

可指定按某些列的判斷

mapseries根據map傳入的函式將每行或者每列進行轉換

資料替換

replace

資料分析工具 Pandas 功能介紹

原文 如果你在使用 pandas pythondata analysis library 的話,下面介紹的對你一定會有幫助的。首先我們先介紹一些簡單的概念 分批載入 有時我們可能需要載入的 csv 太大,可能會導致記憶體爆掉,這時候,我們就需要分批載入資料進行分析 處理 df.head n 瀏覽資料...

資料分析 pandas

pandas是乙個強大的python資料分析的工具包,它是基於numpy構建的,正因pandas的出現,讓python語言也成為使用最廣泛而且強大的資料分析環境之一。pandas的主要功能 具備對其功能的資料結構dataframe,series 整合時間序列功能 提供豐富的數 算和操作 靈活處理缺失...

資料分析工具Pandas 索引操作總結

pandas中,使用索引獲取資料的方式可歸納為3種 1.loc,標籤索引 2.iloc,位置索引 loc與iloc主要用於行索引,其中,使用名稱 標籤的切片索引是包含末尾位置的。3.布林值遮罩 對應位置為true的時候,則取得該資料。in 1 import pandas as pdimport nu...