RDD的5大特性

2021-07-11 22:23:54 字數 836 閱讀 6766

worker裡有很多excutor,真正完成計算的是excutor,excutor計算都是在記憶體進行計算,

excutor裡面有partitioner,partitioner裡面的資料如果記憶體足夠大的話放到記憶體中,它是一點一點讀的

rdd是分布式資料集,所說rdd就是這個,

rdd有5個特點:

1.a list of partiotioner有很多個partiotioner(這裡有3個partiotioner),可以明確的說,

乙個分割槽在一台機器上,乙個分割槽其實就是放在一台機器的記憶體上,

一台機器上可以有多個分割槽。

2.a function for partiotioner乙個函式作用在乙個分割槽上。

比如說乙個分割槽有1,2,3 在rdd1.map(_*10),把rdd裡面的每乙個元素取出來乘以10,每個分片都應用這個map的函式

3.rdd之間有一系列的依賴

rdd1.map(_*10).flatmap(..).map(..).reducebykey(...)

構建成為dag,這個dag會構造成很多個階段,這些階段叫做stage,rddstage之間會有依賴關係,後面根據前面的依賴關係來構建,如果前面的資料丟了,它會記住前面的依賴,從前面進行重新恢復。每乙個運算元都會產生新的rdd.

textfile 與flatmap會產生兩個rdd.

4.分割槽器hash & integer.max % partiotioner 決定資料到哪個分割槽裡面,可選,這個rdd是key-value 的時候才能有

5.最佳位置。資料在哪台機器上,任務就啟在哪個機器上,資料在本地上,不用走網路。不過資料進行最後彙總的時候就要走網路。(hdfs file的block塊)

RDD五大特性

1 a list of partitions 一系列的分片 比如說128m一片,類似於hadoop中的split 2 a function for computing each split 每個分片上都有乙個函式去迭代 執行 計算它 3 a list of dependencies on other...

RDD的5大特點

1 有乙個分片列表,就是能被切分,和hadoop一樣,能夠切分的資料才能平行計算。一組分片 partition 即資料集的基本組成單位,對於rdd來說,每個分片都會被乙個計算任務處理,並決定平行計算的粒度。使用者可以在建立rdd時指定rdd的分片個數,如果沒有指定,那麼就會採用預設值。預設值就是程式...

html5的八大特性

html5是用於取代1999年所制定的 html 4.01 和 xhtml 1.0 標準的 html 1 標準通用標記語言下的乙個應用 標準版本 現在仍處於發展階段,但大部分瀏覽器已經支援某些 html5 技術。html 5有八大特點 語義特性 class semantic html5賦予網頁更好的...