資料分析 pandas

2021-10-01 05:59:51 字數 1948 閱讀 9453

pandas是乙個強大的python資料分析的工具包,它是基於numpy構建的,正因pandas的出現,讓python語言也成為使用最廣泛而且強大的資料分析環境之一。

pandas的主要功能:

具備對其功能的資料結構dataframe,series

整合時間序列功能

提供豐富的數**算和操作

靈活處理缺失資料

>: pip install pandas

import pandas as pd

series是一種類似於一維陣列的物件,由一組資料和一組與之相關的資料標籤(索引)組成

將陣列索引以及陣列的值列印出來,索引在左,值在右,由於沒有為資料指定索引,於是會自動建立乙個0到n-1(n為資料的長度)的整數型索引,取值的時候可以通過索引取

index是乙個索引列表,裡面包含的是字串,依然可以通過預設索引取值。

建立乙個值都是0的陣列

對於series,其實我們可以認為它是乙個長度固定且有序的字典,因為它的索引和資料是按位置進行匹配的,像我們會使用字典的上下文,就肯定也會使用series

dropna預設過濾值為nan的行,不修改原資料,若指定inplace=true,則修改原資料

fillna可以將nan修改為數字0(一般修改為0),不修改原資料,若指定inplace=true,則修改原資料

因為pandas是基於numpy構建的,所以series支援ndarray的特性:

支援字典的特性:

pandas在運算時,會按索引進行對齊然後計算。如果存在不同的索引,則結果的索引值是nan。

將兩個series物件相加時將缺失值設為0:

將缺失值設為0,所以最後算出來b索引對應的結果為14

補充: 靈活的算術方法:add,sub,div,mul

dataframe是乙個**型的資料結構,相當於是乙個二維陣列,含有一組有序的列。他可以被看做是由series組成的字典,並且共用乙個索引。

產生的dataframe會自動為series分配所索引,並且列會按照排序的順序排列

自定義行索引,源於series的自定義索引

常用屬性和方法:

dataframe使用索引切片:

向dataframe物件中寫入值時只使用方法2

行/列索引部分可以是常規索引、切片、布林值索引、花式索引任意搭配。(注意:兩部分都是花式索引時結果可能與預料的不同)

python資料分析 Pandas

import pandas as pd series 可以看做乙個定長的有序字典。基本任意的一維資料都可以用來構造 series 物件 s pd.series 1,2,3.0,abc s1 pd.series data 1,3,5,7 index a b x y 通過下標獲取資料 s1 a seri...

資料分析之Pandas

from pandas import series,dataframe import pandas as pd import numpy as np states california ohio oregon texas year 2000,2001,2002,2003 value 35000,71...

pandas資料分析入門

起始時間 start time str型別 yyyy mm dd hh mm ss 結束時間 end time str型別 yyyy mm dd hh mm ss 騎行時長 trip duration int型別,秒 起始車站 start station 例如百老匯街和巴里大道 結束車站 end s...