5,pandas高階資料處理

2022-05-01 15:00:14 字數 2382 閱讀 2206

使用duplicated()函式檢測重複的行,返回元素為布林型別的series物件,每個元素對應一行,如果該行不是第一次出現,則元素為true 

- keep引數:指定保留哪一重複的行資料

import numpy as np

import pandas as pd

from pandas import series,dataframe

#建立乙個df

np.random.seed(1)

df = dataframe(data=np.random.randint(0,100,size=(8,4)))

df

#手動將df的某幾行設定成相同的內容

使用drop_duplicates()函式刪除重複的行

df.drop_duplicates(keep='last')
使用replace()函式,對values進行對映操作 

series替換操作

多值替換

引數dataframe替換操作

map當做一種運算工具,至於執行何種運算,是由map函式的引數決定的(引數:lambda,函式)

注意:並不是任何形式的函式都可以作為map的引數。只有當乙個函式具有乙個引數且有返回值,那麼該函式才可以作為map的引數。

使用df.std()函式可以求得dataframe物件每一列的標準差 

使用.take()函式排序

- take()函式接受乙個索引列表,用數字表示,使得df根據列表中索引的順序進行排序

- eg:df.take([1,3,4,2,5])

可以借助np.random.permutation()函式隨機排序

資料聚合是資料處理的最後一步,通常是要使每乙個陣列生成乙個單一的數值。

資料分類處理:

資料分類處理的核心:

- groupby()函式

- groups屬性檢視分組情況

5 Pandas資料處理

np.nan nan object型別相比於int型別運算時消耗時間更長 pandas中的none與nan df.notnull df.isnull any df.isnull all df.notnull all axis 1 df df.notnull all axis 1 過濾函式 df.dr...

Pandas高階函式資料處理

import pandas as pd df pd.read excel 成績表 統計 xls sheet name 寫入 新 dtype str print df 建立函式遍歷修改 deff x if 0 instr x return 女 elif 1 in str x return 男 else...

pandas 資料處理

pandas中資料可以分為series,dataframe,panel分別表示一維至三維資料。其中在構造時,index表示行名,columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...