Pandas使用方法

2022-07-28 20:39:20 字數 2530 閱讀 1299

pandas是乙個強大的python資料分析的工具包,它是基於numpy構建的,正因pandas的出現,讓python語言也成為使用最廣泛而且強大的資料分析環境之一。

pandas的主要功能:

安裝方法:

pip install pandas

引用方法:

import pandas as pd

series是一種類似於一維陣列的物件,由一組資料和一組與之相關的資料標籤(索引)組成

1.建立方法

2.缺失資料

dropna() #

過濾掉值為nan的行

fillna() #

填充缺失資料

isnull() #

返回布林陣列,缺失值對應為true

notnull() #

返回布林陣列,缺失值對應為false

3.series特性

從ndarray建立series:series(arr)

與標量(數字):sr * 2兩個series運算

通用函式:np.ads(sr)

布林值過濾:sr[sr>0]

統計函式:mean()、sum()、cumsum()

支援字典的特性:

loc屬性 #

以標籤解釋

iloc屬性

#以下標解釋

4.series資料對齊

pandas在運算時,會按索引進行對齊然後計算。如果存在不同的索引,則結果的索引是兩個運算元索引的並集。

sr1 = pd.series([12,23,34], index=['

c','

a','d'

])sr2 = pd.series([11,20,10], index=['

d','

c','a'

,])sr1 +sr2

執行結果:

a 33c 32d 45dtype: int64

#可以通過這種索引對齊直接將兩個series物件進行運算

sr3 = pd.series([11,20,10,14], index=['

d','

c','

a','b'

])sr1 +sr3

執行結果:

a 33.0b nan

c 32.0d 45.0dtype: float64

#sr1 和 sr3的索引不一致,所以最終的執行會發現b索引對應的值無法運算,就返回了nan,乙個缺失值

將兩個series物件相加時將缺失值設為0:

sr1 = pd.series([12,23,34], index=['

c','

a','d'

])sr3 = pd.series([11,20,10,14], index=['

d','

c','

a','b'

])sr1.add(sr3,fill_value=0)

執行結果:

a 33.0b 14.0c 32.0d 45.0dtype: float64

#將缺失值設為0,所以最後算出來b索引對應的結果為14

dataframe是乙個**型的資料結構,相當於是乙個二維陣列,含有一組有序的列。他可以被看做是由series組成的字典,並且共用乙個索引。

1.建立方法

2.檢視資料

index 獲取行索引

columns 獲取列索引

t 轉置

columns 獲取列索引

values 獲取值索引 

3.獲取資料的方式

df = pd.read_csv('

需要讀取的檔案')

df.head(

'需要檢視的數量')

df.to_csv(

'儲存的檔案

')

pandas的to csv 使用方法

1.首先查詢當前的工作路徑 import os os.getcwd 獲取當前工作路徑2.to csv 是dataframe類的方法,read csv 是pandas的方法 dt.to csv 預設dt是dataframe的乙個例項,引數解釋如下 dt.to csv result.csv 相對位置,儲...

pandas 常見 使用方法 以及使用場景

ndarray 資料型別 numpy 索引 陣列轉置和軸對換 通用函式 一種對ndarray中的資料執行元素級運算的函式 分為一元ufunc 二元ufunc 2.去重 undifieddata data.drop duplicates subset shipid keep first 3.合併 me...

pythonpip使用方法 pip使用方法整理

匯出專案已安裝的pip包 pip list 檢視專案中安裝的包 pip freeze requirements.txt 將專案中所用到的第三方庫輸出到requirements.txt中 pip install 版本號 pip install i 本次使用清華源進行安裝 離線安裝第三方庫 一鍵安裝整個...