使用duplicated()函式檢測重複的行,返回元素為布林型別的series物件,每個元素對應一行,如果該行不是第一次出現,則元素為true
- keep引數:指定保留哪一重複的行資料
import numpy as npimport pandas as pd
from pandas import series,dataframe
#建立乙個df
np.random.seed(1)
df = dataframe(data=np.random.randint(0,100,size=(8,4)))
df
#手動將df的某幾行設定成相同的內容使用drop_duplicates()函式刪除重複的行
df.drop_duplicates(keep='last')使用replace()函式,對values進行對映操作
series替換操作
多值替換
引數dataframe替換操作
map當做一種運算工具,至於執行何種運算,是由map函式的引數決定的(引數:lambda,函式)
注意:並不是任何形式的函式都可以作為map的引數。只有當乙個函式具有乙個引數且有返回值,那麼該函式才可以作為map的引數。
使用df.std()函式可以求得dataframe物件每一列的標準差
使用.take()函式排序
- take()函式接受乙個索引列表,用數字表示,使得df根據列表中索引的順序進行排序
- eg:df.take([1,3,4,2,5])
可以借助np.random.permutation()函式隨機排序
資料聚合是資料處理的最後一步,通常是要使每乙個陣列生成乙個單一的數值。
資料分類處理:
資料分類處理的核心:
- groupby()函式
- groups屬性檢視分組情況
5 Pandas資料處理
np.nan nan object型別相比於int型別運算時消耗時間更長 pandas中的none與nan df.notnull df.isnull any df.isnull all df.notnull all axis 1 df df.notnull all axis 1 過濾函式 df.dr...
Pandas高階函式資料處理
import pandas as pd df pd.read excel 成績表 統計 xls sheet name 寫入 新 dtype str print df 建立函式遍歷修改 deff x if 0 instr x return 女 elif 1 in str x return 男 else...
pandas 資料處理
pandas中資料可以分為series,dataframe,panel分別表示一維至三維資料。其中在構造時,index表示行名,columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...