pandas庫一些常用函式方法記錄

import pandas as pd

引數說明

data

資料，可以是列表，字典或numpy陣列

index

索引，為可選引數

dtype

資料型別，為可選引數

引數說明

data

資料，可以是列表，字典或numpy陣列

index

索引，為可選引數

columns

列標籤，為可選引數

屬性說明

df.values

返回numpy陣列表示的資料

df.index

返回行索引

df.columns

返回列索引

df.shape

返回形狀

df.size

返回大小

df.dtypes

返回每列資料型別

df.t

裝置df.nidm

維數方法

說明df.head(n)

檢視 dataframe 資料中頭部

df.tail(3)

檢視 dataframe 資料中尾部

df.describe()

檢視對於資料的快速統計彙總。最大值、最小值等

df.sort_index(axis=1, ascending=false)

按軸進行排序,false降序

df.sort_values(by=『b』)

按值進行排序,已被改使用values

df.as_matrix()

將dataframe的**型資料轉換成陣列

df.loc()

根據index標籤（xy軸都可）來索引

df.iloc(:,1:3)

根據行號來索引，行號從0開始，逐次加1

df[df.a > 0],df[df > 0]

選擇資料

df2[df2[『e』].isin([『two』,『four』])]

.isin()過濾

df.at[dates[0],『a』]

根據標籤設定新的值

df.iat[1,o]

通過位置設定新的值

df.reindex()

對指定軸上的索引進行改變/增加/刪除操作，這將返回原始資料的乙個拷貝

df.dropna(how=『any』)

去掉包含缺失值的行

df.fillna(value=5)

對缺失值進行填充

pd.isnull(df)

對資料進行布林填充

objs, axis=0, join='outer', join_axes=none, ignore_index=false,keys=none, levels=none, names=none, verify_integrity=false,copy=true)**

引數

說明objs

series，dataframe或panel物件的序列或對映。如果傳遞了dict，則排序的鍵將用作鍵引數，除非它被傳遞，在這種情況下，將選擇值。任何無物件將被靜默刪除，除非它們都是無，在這種情況下將引發乙個valueerror。

axis

，預設為0。沿著連線的軸即按行操作。

join

，預設為「outer」。如何處理其他軸上的索引。outer為聯合和inner為交集。

ignore_index

boolean，default為false。如果為true，請不要使用並置軸上的索引值。結果軸將被標記為0，…，n-1。如果要連線其中並置軸沒有有意義的索引資訊的物件，這將非常有用。注意，其他軸上的索引值在連線中仍然受到尊重。

join_axes

index物件列表。用於其他n-1軸的特定索引，而不是執行內部/外部設定邏輯。

keys

序列，預設值無。使用傳遞的鍵作為最外層構建層次索引。如果為多索引，應該使用元組。

levels

序列列表，預設值無。用於構建multiindex的特定級別（唯一值）。否則，它們將從鍵推斷。

names

list，default無。結果層次索引中的級別的名稱。

verify_integrity

boolean，default false。檢查新連線的軸是否包含重複項。這相對於實際的資料串聯可能是非常昂貴的。

copy

boolean，default true。如果為false，請勿不必要地複製資料。

out[66]:

a b c d f

2013-01-01 0.000000 0.000000 -1.509059 5 nan

2013-01-02 1.212112 -0.173215 -1.389850 10 1.0

2013-01-03 0.350263 -2.277784 -1.884779 15 3.0

2013-01-04 1.071818 -2.984555 -2.924354 20 6.0

2013-01-05 0.646846 -2.417535 -2.648122 25 10.0

2013-01-06 -0.026844 -2.303886 -4.126549 30 15.0

out[67]:

a 2.073961

b 2.671590

c 1.785291

d 0.000000

f 4.000000

dtype: float64

方法說明

count

非 na 值的數量

describe

針對 series 或 df 的列計算匯**計

min , max

最小值和最大值

argmin , argmax

最小值和最大值的索引位置（整數）

idxmin , idxmax

最小值和最大值的索引值

quantile

樣本分位數（0 到 1）

sum求和

mean

均值median

中位數mad

根據均值計算平均絕對離差

var方差

std標準差

skew

樣本值的偏度（三階矩）

kurt

樣本值的峰度（四階矩）

cumsum

樣本值的累計和

cummin , cummax

樣本值的累計最大值和累計最小值

cumprod

樣本值的累計積

diff

計算一階差分（對時間序列很有用）

pct_change

計算百分數變化

prod

不同維度上的乘積

pd.resd_csv(filepath_or_buffer,header,names,nrows,skiprows)引數

說明filepath_or_buffer

檔案所在處的路徑

header

指定哪一行作為表頭。預設設定為0（即第一行作為表頭），如果沒有表頭的話，要修改引數，設定header=none

names

指定列的名稱，用列表表示。一般我們沒有表頭，即header=none時，這個用來新增列名就很有用啦！

nrows

需要讀取的行數

skiprows

需要跳過的行號列表（從0開始)

encoding

亂碼的時候用這個就是了

pandas庫一些常用函式方法記錄

PostgresSql常用一些函式方法

pandas學習索引物件和一些常用函式

一些常用的函式

pandas庫一些常用函式 方法記錄

PostgresSql常用一些函式方法

pandas學習 索引物件和一些常用函式

一些常用的函式

相關推薦

pandas庫一些常用函式方法記錄

pandas學習索引物件和一些常用函式