RDD中的依賴關係

2022-09-04 18:30:15 字數 603 閱讀 3925

1.有shuffle

2.父rdd的乙個分割槽會被子rdd的多個分割槽所依賴(父一對多)

1.沒有shuffle

2.父rdd的乙個分割槽只會被子rdd的1個分割槽所依賴(一對一)

窄依賴:spark可以對窄依賴進行優化:合併操作,形成pipeline(管道),同乙個管道中的各個操作可以由同乙個執行緒執行完,

且如果有乙個分割槽資料丟失,只需要從父rdd的對應個分割槽重新計算即可,不需要重新計算整個任務,提高容錯。

寬依賴:spark可以根據寬依賴進行state階段劃分,同乙個stage階段中的都是窄依賴,可以對該階段內的窄依賴優化

總結:窄依賴: 並行化+容錯

寬依賴: 進行階段劃分(shuffle後的階段需要等待shuffle前的階段計算完才能執行)

Spark 5 RDD依賴關係

dag任務劃分 rdds 通過操作運算元進行轉換,轉換得到的新 rdd 包含了從其他 rdds 衍生所必需的資訊,rdds 之間維護著這種血緣關係,也稱之為依賴。依賴包括兩種,一種是窄依賴,rdds 之間分割槽是一一對應的,另一種是寬依賴,下游 rdd 的每個分割槽與上游rdd 也稱之為父 rdd ...

spark學習筆記 RDD的依賴關係

1.rdd的依賴關係 1.1 rdd的依賴 rdd和它依賴的父rdd的關係有兩種不同的型別,即窄依賴 narrow dependency 和寬依賴 wide dependency 1.2 窄依賴 窄依賴指的是每乙個父rdd的partition最多被子rdd的乙個partition使用 總結 窄依賴我...

RDD的依賴關係和Spark任務中的Stage

rdd和它依賴的父rdd s 的關係有兩種不同的型別,即窄依賴 narrow dependency 和寬依賴 wide dependency 總結 窄依賴我們形象的比喻為獨生子女 總結 窄依賴我們形象的比喻為超生 dag directed acyclic graph 叫做有向無環圖,原始的 rdd通...