建立RDD方式

2021-08-28 15:48:46 字數 575 閱讀 5440

i : 通過外部的儲存系統建立rdd,如本地檔案,hdfs等

scala> val a = sc.textfile("/root.text.txt")
scala> val a = sc.textfile("hdfs://hadoop-01:9000/text.txt")
ii :將driver的scala集合通過並行化的方式變成rdd(通常用於測試,實驗)

scala> val a = sc.parallelize(list(1,2,4,5))

a: org.apache.spark.rdd.rdd[int] = parallelcollectionrdd[25] at parallelize at :24

iii : 呼叫已存在的rdd的transformation,會生成乙個新的rdd

scala> val b = a.map(x=>(x,1))
rdd之transformation的特點:

● lazy,需要用到的時候才進行計算

● 生成新的rdd

spark中建立RDD的方式

spark中建立rdd的幾種方式 1 使用程式中的集合建立rdd 一般用於測試 2 使用本地檔案系統建立rdd 一般用於資料量大的檔案的測試 3 基於hdfs建立rdd 生產環境最常用的rdd建立方式 4 使用s3建立rdd 5 基於資料流建立rdd packagecom.dt.spark impo...

Rdd建立的兩種方式

1 parallelize 函式 val paraadd sc.parallelize array 1 to 100 2 外部儲存建立操作 val lines rdd string sc.textfile user.log 除錯 建立配置檔案物件 val conf sparkconf new spa...

RDD操作建立RDD,轉換操作

學習完廈門大學資料庫spark課程總結 rdd是面對物件的檔案集合,類似於dataframe的一行資料,建立rdd有很多種模式 lines sc.textfile file usr local spark 檔案目錄位址 注意sc是sparkcontext縮寫可能需要import一下,這是從本地檔案建...