spark分布式資料集RDD 的建立

2021-09-10 05:35:19 字數 819 閱讀 2008

1、啟動spark

spark-shell --master local[2]
2、建立乙個最簡單的rdd

val rdd = sc.makerdd(list(1,2,3,4,5));
3、檢視rdd

rdd.collect()

返回res0: array[int] = array(1, 2, 3, 4, 5)

4、rdd指定分割槽(這樣9個資料,就放在了3個分割槽中)

val rdd = sc.makerdd(list(1,2,3,4,5,6,7,8,9),3)
5、檢視分割槽的方法

執行以下**,定義rddutil

import org.apache.spark.rdd.rdd

import scala.reflect.classtag

object rddutil

partitionmap(i) = valuelist

partitionmap.iterator

}).collect().foreach((partitionmap:(int, list[t])) =>

})}}

執行檢視

rddutil.lookpartition(rdd)
partition:[0]12

3partition:[1]45

6partition:[2]78

9

RDD彈性分布式資料集特性總結

rdd彈性分布式資料集 集合分布式的 1 最重要的特性 分割槽 rdd究竟是如何分割槽?從外部載入資料時,比如hdfs,分割槽數與hdfs的block數一致 從內部的單機list中載入資料為rdd,parallelize numpartition 從mysql等非內建支援的資料來源載入資料,分割槽就...

大資料技術學習 彈性分布式資料集RDD

一 rdd定義 rdd resilient distributed dataset 叫做分布式資料集,是spark中基本的資料抽象,它代表乙個不可變 資料和元資料 可分割槽 裡面的元素可平行計算的集合。其特點在於自動容錯,位置感知性排程和可伸縮性。二 rdd的屬性 1 一組分片。即資料集的基本組成單...

Spark系列之分布式資料集 DataFrame

目錄 1 df的建立 2 臨時表 3 sql查詢 4 rdd到df的轉換 5 df的api 簡介dataframe是一種不可變的分布式資料集,資料被組織成指定的列。和資料庫中的表類似。以下的spark變數均由sparksession建立。1 dataframe的建立 jsondf spark.rea...