快速入門Pandas

2022-08-23 12:57:09 字數 3977 閱讀 5450

教你十分鐘學會使用pandas。

pandas是python資料分析的乙個最重要的工具。

# 一般以pd作為pandas的縮寫

import pandas as pd

# 讀取檔案

df = pd.read_csv('file.csv')

# 返回資料的大小

df.shape

# 顯示資料的一些物件資訊和記憶體使用

df.info()

# 顯示資料的統計量資訊

df.describe()

我們的主要資料結構就是dataframe了,dataframe有兩部分構成,乙個是列(columns)。列是有名稱的或者說有標籤的。另乙個是索引(index),這裡我們為了避孕歧義稱之為行(rows),行一般沒有名稱,但是也可以有名稱。

如圖所示:

原始索引就是類list的索引方式。

當索引物件是切片時就是行索引。

>>> df[1:3]

age animal priority visits

b 3.0 cat yes 3

c 0.5 snake no 2

當索引物件是list時就是列索引。

>>> df[['age', 'animal']]

age animal

a 2.5 cat

b 3.0 cat

c 0.5 snake

d nan dog

e 5.0 dog

f 2.0 cat

g 4.5 snake

h nan cat

i 7.0 dog

j 3.0 dog

跟上面等效,上面是用了列名稱,這裡用了列序號。

>>> df[[0,1]]

age animal

a 2.5 cat

b 3.0 cat

c 0.5 snake

d nan dog

e 5.0 dog

f 2.0 cat

g 4.5 snake

h nan cat

i 7.0 dog

j 3.0 dog

>>> df.iloc[0:2, 0:2]

age animal

a 2.5 cat

b 3.0 cat

lociloc的主要區別就是索引要用標籤不能用序號。

>>> df.loc[['a', 'b'], ['animal', 'age']]

animal age

a cat 2.5

b cat 3.0

其實就是位置索引和標籤索引的混合使用方式。

>>> df.ix[0:2, ['animal', 'age']]

animal age

a cat 2.5

b cat 3.0

>>> df[(df['animal'] == 'cat') & (df['age'] < 3)]

age animal priority visits

a 2.5 cat yes 1

f 2.0 cat no 3

找到缺失值。

>>> df[df['age'].isnull()]

age animal priority visits

d nan dog yes 3

h nan cat yes 1

填充缺失值。

>>> df['age'].fillna(0, inplace=true)

>>> df

age animal priority visits

a 2.5 cat yes 1

b 3.0 cat yes 3

c 0.5 snake no 2

d 0.0 dog yes 3

e 5.0 dog no 2

f 2.0 cat no 3

g 4.5 snake no 1

h 0.0 cat yes 1

i 7.0 dog no 2

j 3.0 dog no 1

將字元值替換成布林值

老樣子,來寫點習題吧。

100道pandas練習題

pandas練習庫

官方版十分鐘入門pandas

pandas cookbook

Pandas 快速入門

pandas其實很簡單,共有三種資料結構。其中一維為series,二維為dataframe,三維為panel.先說series,numpy陣列,python列表等都可以生成series。它的結構分為兩部分,索引和值。獲取索引的方式為 index 方法,獲取值得方式為values 方法。而資料框又多乙...

pandas快速入門筆記

pandas 基於numpy,更強大,可以處理有標籤的資料 serise 帶標籤的一維陣列 import pandas as pd a pd.series 1,2,3,4,5 pd.serise 資料,標籤,型別 print a b pd.series 1,2,3,4,5 a b c d e pri...

Pandas快速學習

pandas的資料結構是構建在 numpy 的基礎上的,pandas 的資料結構可以分為三個級別,低階別的資料結構可以看成是高階別的的資料結構的元素,可以這樣理解,最低級別的資料結構是一維陣列,第二個級別的資料結構可以看成是二維陣列,第三個級別的資料結構可以看成是三維的陣列,當然這三個資料結構的複雜...