Python Pandas庫入門及基礎操作

2021-10-09 00:04:27 字數 2018 閱讀 2804

pandas提供高效能易用資料型別和分析工具,可以用import pandas as pd引入,通常簡寫為pd。pandas主要提供兩個資料型別:series(一維)和dataframe(多維);基於上述資料型別提供各類操作:基本操作、運算操作、特徵類操作、關聯類操作等。

series型別由一組資料及與之相關的資料索引組成。

# 預設從0開始自動生成索引

a = pd.series([0

,1,2

,3])

# 可以在建立時指定索引,索引與元素個數一致

b = pd.series([0

,1,2

,3], index=

['a'

,'b'

,'c'

,'d'

])

seriesl型別可以由python列表、標量值、python字典、ndarray等不同型別建立。

# 從標量值建立,index=不能省略,用來表達series型別的尺寸

a = pd.series(

25, index=

['a'

,'b'

,'c'])

# 從字典型別建立,鍵變為對應索引,可以用index指定索引

b = pd.series(

)c = pd.series(

, index=

['d'

,'c'

,'b'

,'a'])

# 從ndarray型別建立,可以用index指定索引

d = pd.series(np.arange(5)

)e = pd.series(np.arange(5)

, index=np.arange(9,

4,-1

))

series型別的操作類似ndarray型別,索引方法相同,運算和操作類似。

# .index獲得索引,返回型別為index

b = a.index

# .values獲得資料,返回型別為array

b = a.values

# 可以用自動索引和自定義索引取值

b = a[

'c']

b = a[2]

# 切片:獲得0至3(不含)的元素,返回值仍為series型別

b = a[:3

]# 可以用函式輔助索引,返回值仍為series型別

b = a[a > a.median()]

# 可以用numpy中的函式,返回值仍為series型別

b = np.exp(a)

series型別的操作和字典型別有相似之處。

# 可以用in檢視元素是否在索引中

print

('c'

in a)

# get函式檢視series中是否存在'f'這個索引,存在即返回對應的值,不存在則給其賦值100

b = a.get(

'f',

100)

series型別存在對齊操作,在運算中自動對齊不同索引的資料。相加時僅計算都有的索引。

a = pd.series([1

,2,3

],['c'

,'d'

,'e'])

b = pd.series([9

,8,7

,6],

['a'

,'b'

,'c'

,'d'])

c = a + b

'''a nan

b nan

c 8.0

d 8.0

e nan

'''

series物件和索引都可以有乙個名字,儲存在屬性.name中。

a.name =

'series物件'

a.index.name =

'索引列'

(未完 待更新 /(ㄒoㄒ)/~~)

Python Pandas庫處理excel表

讀取 儲存excel表 data pandas.read excel filepath data.to excel filepath,index none index none表示不將dataframe的行索引存入excel讀取dataframe某行 列 讀取data中行索引為5 6,列索引為1 3...

python pandas庫具體用法

一 學習資料探勘,如果是用python的話,必須掌握好科學計算的相關庫,我先學習了pandas的一些具體操作 encoding utf 8 import numpy as np import os import pylab as pl import pandas as pd from pandas ...

Python Pandas庫與資料處理

讀取資料import pandas as pd pd.read csv 觀察資料 print dtypes 每列的資料型別 print head n 前n行資料 print tail n 後n行資料 print columns 每一列的名字 print shape 行列數 print loc 0 索...