為什麼groupbykey是寬依賴

2021-07-15 13:18:22 字數 693 閱讀 3643

rdd的依賴:

1.窄依賴是指每個父rdd的partition最多被子rdd的乙個partition所使用,例如map、filter

2.寬依賴是指乙個父rdd的partition會被多個子rdd的partition所使用,例如groupbykey、reducebykey等操作

總結:如果父rdd的乙個partition被乙個子rdd的partition所使用就是窄依賴,否則的話就是寬依賴。

特別說明:對於join操作有兩種情況,如果join操作的使用每個partition 僅僅和已知的partition進行join,此時的join操作就是窄依賴;其他情況的join操作就是寬依賴;因為是確定的partition數量的依賴關係,所以就是窄依賴,得出乙個推論,窄依賴不僅包含一對一的窄依賴,還包含一對固定個數的窄依賴(也就是說對父rdd的依賴的partition的數量不會隨著rdd資料規模的改變而改變)

注意(如何劃分stage):

1.從後往前推理,遇到寬依賴就斷開,遇到窄依賴就把當前的rdd加入到stage中;

2.每個stage裡面的task的數量是由該stage中最後 乙個rdd的partition數量決定的

3.最後乙個stage裡面的任務的型別是resulttask,前面所有其他stage裡面的任務型別都是shufflemaptask

4.代表當前stage的運算元一定是該stage的最後乙個計算步驟

人臉為什麼上寬下窄

人臉為什麼上寬下窄 紅朝儒生 2017 7 26 關鍵字 人臉 地球 大陸 簡介 人臉上寬下窄,是因為地球陸地就這個形狀。那麼,各大陸對人臉形狀有沒有影響?看乙個介紹佛教的文章,說這個世界的人臉上寬下窄,是因為大陸形狀如此。有的大陸 這裡應該指的是其他行星 是半圓形的,所以那裡的人臉是半圓 有的大陸...

為什麼是 pgsql ?

postgresql在國外很流行 在日本是僅次於apache的開源軟體 pgsql 使用程序 postgresql資料庫是多程序的架構.每乙個客戶連線都有乙個服務程序為其進行服務,也有共享記憶體,這一點是與orancle資料庫是相似的.postgresql使用一種客戶端 伺服器的模式.乙個伺服器程序...

為什麼是XML

乙個人倒是可以隨便很多,大概是票價 的原因,今天的參加者不多,也沒遇見熟人。一天下來,思維不斷的轉換,人也有點迷迷糊糊了。最後一場,居然趕錯了會場,開講才知道是db2的講座,主講王先生是 ibm 的 fellow,以前聽過幾次他的演講,沒什麼深刻印象,今天他講 db2 和 xml。這幾年來,偶和 x...