DataFrame建立方法(一)

2021-10-02 19:29:23 字數 1832 閱讀 7099

pandas是在numpy基礎上構建的,numpy的一些通用函式也可以在pandas上使用。dataframe類用來管理具有索引和標籤的資料,這些資料與來自sql資料表或電子**(例如excel)的資料沒有太多不同。以下介紹幾種建立dataframe的方法。

# -*- coding: utf-8 -*-

import numpy as np

import pandas as pd

df = pd.dataframe([10,20,30,40], columns=['numbers'], index=['a','b','c','d'])

print(df)

執行結果如下:

numbers

a 10

b 20

c 30

d 40

process finished with exit code 0

資料:[10,20,30,40]

資料可以用不同組成或型別提供(列表,元組,ndarray,字典物件都是候選者)

標籤:columns=['numbers']

資料組織為列,可以自定義列名

索引:index=['a','b','c','d']

索引可以採用不同的格式(數值,字串,時間資訊)

df = pd.dataframe(data=[[10,20],[30,40],[50,60],[70,80]], columns=['numbers','floats'], index=['a','b','c','d'])

print(df)

執行結果: 

numbers  floats

a 10 20

b 30 40

c 50 60

d 70 80

#字典組成的列表

data = [, ]

df = pd.dataframe(data)

print(df)

執行結果:

no1  no2  no3

0 1 2 nan

1 3 4 5.0

#通過字典建立:

data =

df = pd.dataframe(data)

print(df)

執行結果:

one  two

0 1 5

1 2 6

2 3 7

3 4 8

# series組成的字典

data =

df = pd.dataframe(data)

print(df)

執行結果:

one  two

0 a 1

1 b 2

2 c 3

3 d 4

#字典的字典

data = ,'a2':}

df = pd.dataframe(data)

print(df)

執行結果:

a1  a2

b1 1 4

b2 2 5

b3 3 6

基於RDD建立DataFrame

spark sql支援兩種不同的方法用於轉換已存在的rdd成為dataset。第一種方法是使用反射去推斷乙個包含指定的物件型別的rdd的schema。在你的spark應用程式中當你已知schema時這個基於方法的反射可以讓你的 更簡潔。不過這種方法要求你在寫程式時已經知道rdd物件的結構資訊,因為需...

DataFrame概念與建立

一 概念 pandas是乙個開源的python資料分析庫。pandas把結構化資料分為了三類 series,1維序列,可視作為沒有column名的 只有乙個column的dataframe dataframe,同spark sql中的dataframe一樣,其概念來自於r語言,為多column並sc...

dataframe 新增列方法

引入需用的包,並新建dataframe例子 in 1 import pandas as pd import numpy as np in 2 data pd.dataframe np.array 1,2,3 4,5,6 7,8,9 columns a b c in 3 data out 3 a b ...