spark分布式資料集RDD 的建立

1、啟動spark

spark-shell --master local[2]

2、建立乙個最簡單的rdd

val rdd = sc.makerdd(list(1,2,3,4,5));

3、檢視rdd

rdd.collect()
返回res0: array[int] = array(1, 2, 3, 4, 5)

4、rdd指定分割槽(這樣9個資料，就放在了3個分割槽中)

val rdd = sc.makerdd(list(1,2,3,4,5,6,7,8,9),3)

5、檢視分割槽的方法

執行以下**，定義rddutil

import org.apache.spark.rdd.rdd
import scala.reflect.classtag
object rddutil 
partitionmap(i) = valuelist
partitionmap.iterator
}).collect().foreach((partitionmap:(int, list[t])) => 
})}}

執行檢視

rddutil.lookpartition(rdd)

partition:[0]12
3partition:[1]45
6partition:[2]78
9

RDD彈性分布式資料集特性總結

rdd彈性分布式資料集集合分布式的 1 最重要的特性分割槽 rdd究竟是如何分割槽？從外部載入資料時，比如hdfs，分割槽數與hdfs的block數一致從內部的單機list中載入資料為rdd，parallelize numpartition 從mysql等非內建支援的資料來源載入資料，分割槽就...

大資料技術學習彈性分布式資料集RDD

一 rdd定義 rdd resilient distributed dataset 叫做分布式資料集，是spark中基本的資料抽象，它代表乙個不可變資料和元資料可分割槽裡面的元素可平行計算的集合。其特點在於自動容錯,位置感知性排程和可伸縮性。二 rdd的屬性 1 一組分片。即資料集的基本組成單...

Spark系列之分布式資料集 DataFrame

目錄 1 df的建立 2 臨時表 3 sql查詢 4 rdd到df的轉換 5 df的api 簡介dataframe是一種不可變的分布式資料集，資料被組織成指定的列。和資料庫中的表類似。以下的spark變數均由sparksession建立。1 dataframe的建立 jsondf spark.rea...

spark分布式資料集RDD 的建立

RDD彈性分布式資料集特性總結

大資料技術學習 彈性分布式資料集RDD

Spark系列之分布式資料集 DataFrame

相關推薦

大資料技術學習彈性分布式資料集RDD