5，pandas高階資料處理

使用duplicated()函式檢測重複的行，返回元素為布林型別的series物件，每個元素對應一行，如果該行不是第一次出現，則元素為true

- keep引數：指定保留哪一重複的行資料

import numpy as np
import pandas as pd
from pandas import series,dataframe
#建立乙個df
np.random.seed(1)
df = dataframe(data=np.random.randint(0,100,size=(8,4)))
df

#手動將df的某幾行設定成相同的內容

使用drop_duplicates()函式刪除重複的行

df.drop_duplicates(keep='last')

使用replace()函式，對values進行對映操作

series替換操作

多值替換

引數dataframe替換操作

map當做一種運算工具，至於執行何種運算，是由map函式的引數決定的（引數：lambda，函式）

注意：並不是任何形式的函式都可以作為map的引數。只有當乙個函式具有乙個引數且有返回值，那麼該函式才可以作為map的引數。

使用df.std()函式可以求得dataframe物件每一列的標準差

使用.take()函式排序

- take()函式接受乙個索引列表，用數字表示,使得df根據列表中索引的順序進行排序
- eg:df.take([1,3,4,2,5])

可以借助np.random.permutation()函式隨機排序

資料聚合是資料處理的最後一步，通常是要使每乙個陣列生成乙個單一的數值。

資料分類處理：

資料分類處理的核心：

- groupby()函式
- groups屬性檢視分組情況
5 Pandas資料處理
np.nan nan object型別相比於int型別運算時消耗時間更長 pandas中的none與nan df.notnull df.isnull any df.isnull all df.notnull all axis 1 df df.notnull all axis 1 過濾函式 df.dr...
Pandas高階函式資料處理
import pandas as pd df pd.read excel 成績表 統計 xls sheet name 寫入 新 dtype str print df 建立函式遍歷修改 deff x if 0 instr x return 女 elif 1 in str x return 男 else...
pandas 資料處理
pandas中資料可以分為series，dataframe，panel分別表示一維至三維資料。其中在構造時，index表示行名，columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...

5，pandas高階資料處理

5 Pandas資料處理

Pandas高階函式資料處理

pandas 資料處理

相關推薦