DataFrame概念與建立

2022-02-18 01:07:31 字數 910 閱讀 5901

一 概念

pandas是乙個開源的python資料分析庫。pandas把結構化資料分為了三類:

series,1維序列,可視作為沒有column名的、只有乙個column的dataframe;

dataframe,同spark sql中的dataframe一樣,其概念來自於r語言,為多column並schema化的2維結構化資料,可視作為series的容器(container);

panel,為3維的結構化資料,可視作為dataframe的容器;

二 建立dataframe

# 標準建立

df2 = pd.dataframe(np.arange(16).reshape((4,4)),index=['a','b','c','d'], columns=['one','two','three','four'])

print "df2 =", df2

# 用傳入等長列表組成的字典來建立(用dataframe自帶索引) 自帶列名

data=

df=pd.dataframe(data)

print "df =", df

# 傳入巢狀字典(字典的值也是字典)建立dataframe (使用字典內嵌索引) 自帶列名

nest_dict = , 'beijing': }

df1=pd.dataframe(nest_dict)

print "df1 =", df1

# 傳入series (帶大括號,另外需加列名)

list = ['1', '2', '3', '4']

s= pd.series(list, index=['a', 'b', 'c', 'd'])

df1=pd.dataframe()

print "df1 =", df1

print df1

基於RDD建立DataFrame

spark sql支援兩種不同的方法用於轉換已存在的rdd成為dataset。第一種方法是使用反射去推斷乙個包含指定的物件型別的rdd的schema。在你的spark應用程式中當你已知schema時這個基於方法的反射可以讓你的 更簡潔。不過這種方法要求你在寫程式時已經知道rdd物件的結構資訊,因為需...

DataFrame建立方法(一)

pandas是在numpy基礎上構建的,numpy的一些通用函式也可以在pandas上使用。dataframe類用來管理具有索引和標籤的資料,這些資料與來自sql資料表或電子 例如excel 的資料沒有太多不同。以下介紹幾種建立dataframe的方法。coding utf 8 import num...

三種方式建立DataFrame

import pandas as pd data df pd.dataframe data dfab c047 10158 11269 12import pandas as pd data 4,7,10 5,8,11 6,9,12 df pd.dataframe data,columns a b c...