小記 spark的寬依賴與窄依賴分析

2022-08-01 05:15:09 字數 338 閱讀 8613

窄依賴: narrow dependency : 乙個rdd對它的父rdd,只有簡單的一對一的依賴關係。rdd的每個partition僅僅依賴於父rdd中的乙個partition,父rdd和子rdd的partition之間的對應關係是一對一的。

寬依賴 shuffle dependency : 本質就是shuffle,每乙個父rdd的partition中的資料,都可能會傳輸到下乙個rdd的每個partition中,此時就會出現,父rdd和子rdd的partition之間,具有互動錯綜複雜的關係,就叫做兩個rdd之間是寬依賴,他們之間發生的操作是shuffle

Spark寬依賴與窄依賴

spark中rdd的高效與dag 有向無環圖 有很大的關係,在dag排程中需要對計算的過程劃分stage,劃分的依據就是rdd之間的依賴關係。rdd之間的依賴關係分為兩種,寬依賴 wide dependency shuffle dependency 和窄依賴 narrow dependency 窄依...

Spark寬依賴 窄依賴

在spark中,rdd 彈性分布式資料集 存在依賴關係,寬依賴和窄依賴。寬依賴和窄依賴的區別是rdd之間是否存在shuffle操作。窄依賴窄依賴指父rdd的每乙個分割槽最多被乙個子rdd的分割槽所用,即乙個父rdd對應乙個子rdd或多個父rdd對應乙個子rdd 寬依賴寬依賴指子rdd的每個分割槽都依...

寬依賴和窄依賴 Spark 寬依賴和窄依賴

1.前言 上一節spark dag概述 spark中rdd的高效與dag圖有著莫大的關係,在dag排程中需要對計算過程劃分stage,暴力的理解就是stage的劃分是按照有沒有涉及到shuffle來劃分的,沒涉及的shuffle的都劃分在乙個stage裡面,這種劃分依據就是rdd之間的依賴關係。針對...