Python實用乾貨 panda多方面處理資料

2021-10-25 10:21:43 字數 4758 閱讀 4475

padas是用於資料分析的最流行的python庫。它提供了高度優化的效能,後端源**純粹是用cpython。可以用來分析:series、dataframes。

series系列是在熊貓中定義的一維(1-d)陣列,可用於儲存任何資料型別。

**1:創作系列

# program to create series

# import panda library

import pandas as pd  

# create series with data, and index

a = pd.series(data, index = index)

標量值可以是整值、字串

python字典可以是鍵,值對

ndarray

可以通過series的兩個屬性,index 和 value  來分別獲取索引和值

obj.index

out[5]: rangeindex(start=0, stop=4, step=1)

obj.values

out[7]: array([2, 9, 5, 6], dtype=int64)

**2:當資料報含標量值時

# program to create series with scalar values  

# numeric data

data =[1, 3, 4, 5, 6, 2, 9]

# creating series with default index values

s = pd.series(data)

# predefined index values

index =['a', 'b', 'c', 'd', 'e', 'f', 'g']

# creating series with predefined index values

si = pd.series(data, index)

輸出量:

**3:當資料報含字典時

# program to create dictionary series 

dictionary =

# creating series of dictionary type

sd = pd.series(dictionary)

輸出量:

**4:當資料報含ndarray時

# program to create ndarray series 

# defining 2darray

data =[[2, 3, 4], [5, 6, 7]]

# creating series of 2darray

snd = pd.series(data)

輸出量:

series 索引的 name 和 值的 name(相當於這兩個向量的名字)

obj3.name

obj3.name="population"

obj3.index.name="ind"

obj3

out[23]:

indb 2.0

a 1.0

d nan

name: population, dtype: float64

dataframes是在熊貓中定義的由行和列組成的二維(2-d)資料結構。是乙個典型的**型資料,既有行索引,又有列索引。相當於乙個大字典,字典的鍵是列索引,字典的值是乙個series;  構成這些索引的每乙個值的series都是共用乙個 series 索引的。

**1:建立dataframe

# program to create dataframe

# import library

import pandas as pd   

# create dataframe with data

a = pd.dataframe(data)

在這裡,資料可以是:

乙個或多個字典

乙個或多個系列

2d-numpy ndarray

**2:當資料是字典時

# program to create data frame with two dictionaries

# define dictionary 1

dict1 =   

# define dictionary 2     

dict2 = 

# define data with dict1 and dict2

data =  

# create dataframe 

df = pd.dataframe(data)

輸出量:

dataframe 預設通過 列索引獲取乙個series;(在series中預設通過索引獲取乙個值)

df["popular"] 或者 df.popular

out[37]:

0 8

1 9

2 10

3 11

name: popular, dtype: int64

**3:當資料是序列時

# program to create dataframe of three series 

import pandas as pd

# define series 1

s1 = pd.series([1, 3, 4, 5, 6, 2, 9])   

# define series 2       

s2 = pd.series([1.1, 3.5, 4.7, 5.8, 2.9, 9.3]) 

# define series 3

s3 = pd.series(['a', 'b', 'c', 'd', 'e'])     

# define data

data = 

# create dataframe

dfseries = pd.dataframe(data)

輸出量:

dataframe 通過 ix 間接獲取行向量,行向量也是乙個series,它的索引是原來df的列索引。

df.loc[2]

out[40]:

cities bj

year 2003

popular 10

name: 2, dtype: object

**4:當資料為2d-numpy ndarray時:在建立2d陣列的dataframe時,必須維護乙個約束--2d陣列的維數必須相同。

# program to create dataframe from 2d array

# import library

import pandas as pd 

# define 2d array 1

d1 =[[2, 3, 4], [5, 6, 7]] 

# define 2d array 2

d2 =[[2, 4, 8], [1, 3, 9]] 

# define data

data =  

# create dataframe

df2d = pd.dataframe(data)

輸出量:

python統計excel利用pandans的分組

python統計excel利用pandans的分組,其中還用列表資料求差集 csv資料結構 有三個按照日期統計的csv 需要統計出這三張csv按照areaid缺少的type和bdtype 其中type 1,2,3,4 bdtype 1,3,4 原始碼如下 第一步資料初步處理刪除非必須列 coding...

python入門乾貨 python基礎乾貨 01

1.編碼集 ascii 是最早的編碼 ascii值控制字元ascii值控制字元ascii值控制字元ascii值控制字元 nut space soha astxbb etxc ceotdd enqe eackff belggbs hhhti ilfjj vtkkff llcrm msonn siood...

python 函式式 panda 函式式

摘要 一提到程式設計正規化,很容易聯想到宗教的虔誠,每種宗教所表達信條都有一定合理性,但如果一直只遵循一種教條,可能也被讓自己痛苦不堪,程式設計正規化也是如此。案例1 案例一,摘抄來自一企業培訓材料,主要 邏輯是列印每課成績,並找出學生非f級別課程統計平均分數 class coursegrade 摘...