Spark RDD概念學習系列之如何建立RDD

2021-09-07 11:49:55 字數 699 閱讀 8954

不多說,直接上乾貨!

方式一:從集合建立rdd

(1)makerdd

(2)parallelize

注意:makerdd可以指定每個分割槽perferredlocations引數,而parallelize則沒有。

方式二:讀取外部儲存建立rdd

spark與hadoop完全相容,所以對hadoop所支援的檔案型別或者資料庫型別,spark同樣支援。

(1)多檔案格式支援:

(2)多檔案系統支援:

1)本地檔案系統

2)s3

3)hdfs

(3)資料庫

1)jdbcrdd

2)spark-cassandra-connector(datastax/spark-cassandra-connector)

3)org.apache.hadoop.hbase.mapreduce.tableinputformat(sparkcontext.newapihadooprdd)

4)elasticsearch-hadoop

Spark RDD概念學習系列之RDD的操作(七)

rdd的操作 rdd支援兩種操作 轉換和動作。1 轉換,即從現有的資料集建立乙個新的資料集。2 動作,即在資料集上進行計算後,返回乙個值給driver程式。例如,map就是一種轉換,它將資料集每乙個元素都傳遞給函式,並返回乙個新的分布式資料集表示結果。另乙個方面,reduce是一種動作,通過一些函式...

Beam概念學習系列之PTransform資料處理

不多說,直接上乾貨!ptransform資料處理 ptransform對pcollection進行並行處理,每次處理1條,例如filter過濾 groupby分組 combine統計 join關聯等等,還允許根據業務邏輯編寫pardo。apache beam借鑑了函式式程式設計的不可變性,ptran...

Storm概念學習系列之storm的功能和三大應用

不多說,直接上乾貨!storm的功能 下面介紹storm 的三大主要應用 1 流處理 stream processing storm 可用來實時處理新資料和更新資料庫,兼具容錯性和可擴充套件性,即 storm 可以用來處理源源不斷流進來的訊息,處理之後將結果寫入某個儲存中。2 持續計算 contin...