spark中建立RDD的方式

2021-07-10 09:14:32 字數 797 閱讀 4527

spark中建立rdd的幾種方式:

1、使用程式中的集合建立rdd(一般用於測試)

2、使用本地檔案系統建立rdd(一般用於資料量大的檔案的測試)

3、基於hdfs建立rdd(生產環境最常用的rdd建立方式)

4、使用s3建立rdd

5、基於資料流建立rdd

packagecom.dt.spark

importorg.apache.spark.

/*** created by 全全 on 2016/3/9.

*/objectrddbasedoncollections

}

defmain(args:array[string])//對每一行的字串進行單詞拆分並把所有行的拆分結果通過flat合併成乙個大的集合

valpairs = words.map

valwordcounts = pairs.reducebykey(_+_) //對相同的key,進行value的累計(包括local和reducer級別同時reduce)

wordcounts.foreach(wordnumberpair => println(wordnumberpair._1+":"+wordnumberpair._2))

sc.stop()

}

Spark之RDD的建立

在spark中建立rdd的建立方式可以分為三種 從集合中建立rdd 從外部儲存建立rdd 從其他rdd建立。從集合中建立rdd,spark主要提供了兩種函式 parallelize和makerdd 1 使用parallelize 從集合建立 2 使用makerdd 從集合建立 包括本地的檔案系統,還...

建立RDD方式

i 通過外部的儲存系統建立rdd,如本地檔案,hdfs等 scala val a sc.textfile root.text.txt scala val a sc.textfile hdfs hadoop 01 9000 text.txt ii 將driver的scala集合通過並行化的方式變成rd...

spark的rdd建立臨時表的兩張方式

都需要變成dataframe 1.val outstructfield array structfield dataframe.schema.fields val outschema structtype structtype outstructfield structtype age intege...