spark的rdd建立臨時表的兩張方式

2021-08-16 11:08:19 字數 682 閱讀 4941

都需要變成dataframe

1.val outstructfield :array[structfield]=dataframe.schema.fields

val  outschema :structtype = structtype(

outstructfield 

:+ structtype("age",integertype,false)

)   --------這種寫法是當dataframe裡面的字段不能滿足時,需要加欄位,也就是rdd[row]裡面的字段

val resultdataframe: dataframe= hc.createdataframe(rdd[row],outschema )

resultdataframe.registertemptable("tmeptabelname")    ----建立了tmeptabelname的臨時表

2.dataframe.createorreplacetempview("temptablename")   ----2.x版本

rdd.todf("field1","field2").createorreplacetempview("temptablename")-----只需要field1,field2兩個欄位的臨時表

dataframe.registertemptable("temptablename")-----1.x版本

Spark之RDD的建立

在spark中建立rdd的建立方式可以分為三種 從集合中建立rdd 從外部儲存建立rdd 從其他rdd建立。從集合中建立rdd,spark主要提供了兩種函式 parallelize和makerdd 1 使用parallelize 從集合建立 2 使用makerdd 從集合建立 包括本地的檔案系統,還...

spark中建立RDD的方式

spark中建立rdd的幾種方式 1 使用程式中的集合建立rdd 一般用於測試 2 使用本地檔案系統建立rdd 一般用於資料量大的檔案的測試 3 基於hdfs建立rdd 生產環境最常用的rdd建立方式 4 使用s3建立rdd 5 基於資料流建立rdd packagecom.dt.spark impo...

spark 的RDD分割槽

rdd的倆種建立方 1.從集合中建立rdd,spark主要提供了兩種函式 parallelize和makerdd 使用parallelize 從集合建立 scala val rdd sc.parallelize array 1,2,3,4,5,6,7,8 使用makerdd 從集合建立 scala ...