Spark 之 Task 原理分析

1、接收請求，準備操作

executor 接收到了launchtask的請求後，在taskrunner中會做一些準備工作，例如：反序列化task，因為task傳送過來時，是被序列化的。然後通過網路拉取需要的檔案，jar包等。在準備工作之後，執行task的run（）方法，該方法最核心的就是呼叫rdd的iterator（）方法，此時會針對 task 所對應的 rdd 的partition，執行我們自定義的運算元函式。

2、處理階段 shufflemaptask

計算完partition 資料之後，實際上會使用shufflemanager的shufflewriter，將資料分割槽之後寫入對應的分割槽檔案。當所有的操作完了之後，實際上會有乙個mapstatus，傳送給dagscheduler中的mapoutputtracker。

3、處理階段 resulttask

該階段，會去mapoutpouttracker中拉取shufflemaptask的輸出資料（rdd）, 執行 shuffle 等操作，當然也包括我們自定義的運算元函式。

Spark 之 Task 原理分析

spark學習 Task原理

Spark中Task數量的分析

Task原理原始碼分析

Spark 之 Task 原理分析

spark學習 Task原理

Spark中Task數量的分析

Task原理原始碼分析

相關推薦