Pandas學習筆記 02 pandas基礎

2022-10-06 15:57:14 字數 2486 閱讀 9266

第二章 pandas基礎

目錄2 基本資料結構

3 常用基本函式

4 視窗物件

read_csvread_tableread_excel

公共引數

header=none表示第一行不作為列名

index_col表示把某一列或幾列作為索引

usecols表示讀取的列,預設讀取所有的列

parse_dates表示需要轉化為時間的列

nrows表示讀取的資料行數。

對於read_table讀取txt,使用sep(正則)自定義分隔符,同時指定enginepython

to_csvto_excel

儲存時使用index=false去除索引

series一般由序列值data、索引index、儲存型別dtype、序列名稱name組成。

dataframeseries的基礎上增加列索引columns.t可進行轉置。

獲取屬性:valuesindexdtypenameshapecolumns

3.1彙總函式

head, tail分別表示返回表或者序列的前n行和後n行,其中n預設為5。

info, describe分別返回表的資訊概況和表中數值列對應的主要統計量

3.2 特徵統計函式(聚合)

sum, mean, median, var, std, max, min:和、均值、中位數、無偏方差、樣本標準差、最大值、最小值。

quantile, count, idxmax/idxmin:分位數、非缺失值個數、最大/小值對應的索引

3.3 唯一值函式

unique:獲取唯一值列表

nunique:獲取唯一值個數

value_counts:獲取唯一值和出現頻數

drop_duplicates:刪除多列組合的重複值。

關鍵引數keep預設值為first,保留組合第乙個出現的所在行;last表示保留最後一次出現的所在行,false表示把所有重複組合所在的行剔除(只保留出現過一次的組合)。

duplicated返回是否為唯一值的布林列表,keep引數同上。

3.4 替換函式

對映替換:replace

直接傳入字典或雙列表

方向替換,method=ffill/bfill用前方值或後方值替換

正則替換,regex=true

邏輯替換:wheremask

where在傳入條件為false時進行替換,mask在傳入條件為true時進行替換

數值替換:round, abs, clip分別表示給定精度四捨五入、取絕對值和截斷

3.5 排序函式

sort_values: 值排序,預設引數ascending=true為公升序

sort_index: 索引排序,需要level引數指定索引層名稱或層號。

shift, diff, pct_change是一組類滑窗函式,分別表示前移、做差、增長率,公共引數為periods=n,可以為負值,預設為1,表示與前一位比較。功能可以用視窗大小為n+1rolling方法等價代替。

.expanding表示擴張視窗,使用聚合函式會依次作用到逐步擴張的視窗上,類似cummax, cumsum, cumprod

參考:joyful pandas教程

pandas學習筆記

import numpy as np import pandas as pd obj2 pd.series 4,7,5,3 index d b a c obj2 out 99 d 4 b 7 a 5 c 3 dtype int64 a b pd.series a bout 102 a 1 b 2 c...

pandas學習筆記

1 建立物件,瀏覽資料 建立物件,瀏覽資料 import pandas as pd import numpy as np import matplotlib.pyplot as plt 建立series s pd.series 1,2,4,6,np.nan,9,10 index list abcde...

pandas學習筆記

1.series 類似numpy中的一維陣列,表示為索引 從0開始 和值。建立 import pandas as pd,numpy as np s1 pd.series np.arange 10 s2 pd.series 12 2,5 s3 pd.series 含有的屬性 s1.values s1....