spark學習系列 3 rdd介紹

2021-08-17 07:10:51 字數 558 閱讀 8160

1、rdd是spark提供的核心抽象,全稱為resillient distributed dataset,即彈性分布式資料集。

2、rdd在抽象上來說是一種元素集合,包含了資料。它是被分割槽的,分為多個分割槽,每個分割槽分布在集群中的不同節點上,從而讓rdd中的資料可以被並行操作。(分布式資料集)

3、rdd通常通過hadoop上的檔案,即hdfs檔案或者hive表,來進行建立;有時也可以通過應用程式中的集合來建立。

4、rdd最重要的特性就是,提供了容錯性,可以自動從節點失敗中恢復過來。即如果某個節點上的rdd partition,因為節點故障,導致資料丟了,那麼rdd會自動通過自己的資料**重新計算該partition。這一切對使用者是透明的。

5、rdd的資料預設情況下存放在記憶體中的,但是在記憶體資源不足時,spark會自動將rdd資料寫入磁碟。(彈性 ==靈活)

說明:預設情況下,spark讀取hdfs資料,乙個檔案塊就是乙個分割槽。

謹記 rdd是乙個抽象概念。

Spark介紹系列03 RDD

有些基礎用法就不詳細介紹,有疑問的夥伴互相交流。一.rdd的介紹 rdd resilient distributed dataset 叫做分布式資料集,是spark中最基本的資料抽象,它代表乙個不可變 可分割槽 裡面的元素可平行計算的集合。rdd具有資料流模型的特點 自動容錯 位置感知性排程和可伸縮...

spark學習 RDD程式設計

rdd建立 從從檔案系統中載入資料建立rdd 1.spark採用textfile 從檔案系統中載入資料建立rdd 可以使本地,分布式系統等 2.把檔案的url作為引數 可以是本地檔案系統的位址,分布式檔案系統hdfs的位址等等 從本地檔案中載入資料 sc為系統自動建立的sparkcontext,不用...

Spark學習 RDD程式設計基礎

spark上開發的應用程式都是由乙個driver programe構成,這個所謂的驅動程式在spark集群通過跑main函式來執行各種並行操作。集群上的所有節點進行平行計算需要共同訪問乙個分割槽元素的集合,這就是rdd rdd resilient distributed dataset 彈性分布式資...