Spark中劃分stage的規則

常見的有map, flatmap, filter, sample ...

常見的有sortbykey, reducebykey, groupbykey, join ...

在spark中，每個任務對應乙個分割槽，通常不會跨分割槽運算元據。但如果遇到寬依賴的操作，spark必須從所有分割槽讀取資料，並查詢所有鍵的對應值，然後彙總在一起以計算每個鍵的最終結果，這稱為shuffle。shuffle是一項昂貴的操作，因為它通常會跨節點運算元據，這會涉及磁碟 i/o，網路 i/o，和資料序列化。某些shuffle操作還會消耗大量的堆記憶體，因為它們使用堆記憶體來臨時儲存需要網路傳輸的資料。

言歸正傳，stage的劃分，是以result和shuffle這兩種型別來劃分task。對於窄依賴，由於分割槽依賴關係的確定性，partition的轉換處理可以在同乙個執行緒裡完成，稱之為resulttask。而對於寬依賴，只能等父rdd集的shuffle處理完成後，在下乙個stage才能開始接下來的計算，稱之為shufflemaptask。

因此劃分stage的規則如下：從後往前推rdd運算元，如果遇到寬依賴就斷開，劃分為乙個stage；如果遇到窄依賴就將這個rdd加入當前的stage。

舉個栗子，如下圖的spark任務應該被劃分為2個stage。

Spark中劃分stage的規則

Spark中stage的劃分

Spark RDD的stage劃分和容錯

spark DAG的生成和劃分Stage

Spark中劃分stage的規則

Spark中stage的劃分

Spark RDD的stage劃分和容錯

spark DAG的生成和劃分Stage

相關推薦