Pandas 資料處理的基本方法

import pandas as pd，其中pd.series()類似與python中的字典，可傳入字典構造。支援相應的切片，若切片值為index則前後區間都包括在內：d[「123」]或者d[" 「:」「]表示兩個index之前的全部數，顯示索引；若是數字切片，d[0:2]賊左閉右包，隱式索引。

np.dataframe()類似於兩個series進行疊加，行列都有索引。m=np.dataframe()(d為乙個series)其中，m.index放回行的標籤，m.colums返回列的標籤。其中m[「col0」]返回第一列的值，m[0]在陣列中則是返回第乙個數的值。其中，某些鍵的之不存在，pd會自動補充nan。或者時pd.dtaframe(二維陣列，[index=,clunms=])也可以建立dataframe陣列形式。

ind=np.index()可以構造出index的陣列，與numpy的array類似，唯一區別就是不要變ind[1]=2,就會報錯。

pd可以像字典一樣改變值或者輸出：d.keys(),d.items()d[「56」]=12

操作時：loc取值和索引都是顯示；iloc取值和索引都是隱式。

dataframe資料選擇方法：

data[index]#索引;data.index#屬性值

data.values#看成陣列進行按行檢視陣列資料,返回乙個二維陣列，然後就可以按照陣列進行操作

可以直接使用掩碼，對資料直接進行過濾:data[data[「index」]>100],可以與numpy結合使用，運用通用函式。

df=pd.dataframe() df.add(),df.mul()/df.multiply(),df.sub()/df.subtract(),df.mod(),df.pow()與numpy中的運算相對應。

pands對缺失值的處理：

none：型別，object型別

nan:數值型缺失值，任何操作的結果都為nan。

isnull(),notnull()進行判斷。

data.isnull()#返回對應位上的true與false,data[data.notnull()]#返回非空的資料

剔除缺失值：

data.dropna()#預設提出包含nan的一整行資料，也可以填進去引數：data.dropna(axis= ,how=「any」/「all」,thresh=)

data.fillna()#對缺失值進行填充np.dataframe( 『』』』』』』,fill_value=0)也可以進行填充data.fillna(method=「ffill"or"bfill」)#ffill:利用前面的值進行填充；bfill:利用從後往前的值進行填充。

多級索引：multiindex----data.unstack()#將多級索引快速變為普通dataframe資料結構

data.stack()#將行列索引的dataframe快速變為乙個多級索引

data.groupby(" 「)#返回乙個groupby物件，可以認為其為乙個dataframe

高效能計算：

pd.eval(」 ")#算術運算、比較運算。。。。。括號裡面需要在引號中進行，字元進行

Pandas 資料處理的基本方法

pandas 的資料處理方法

資料處理 pandas資料處理優化方法小結

pandas常用的資料處理方法

Pandas 資料處理的基本方法

pandas 的資料處理方法

資料處理 pandas資料處理優化方法小結

pandas常用的資料處理方法

相關推薦