Spark任務提交流程

spark的任務執行流程沒有hadoop那麼繞，它的流程其實就是當你執行submit的的時候driver會和master進行互動，因為對於spark來說master是掌控集群資源的元件，和hadoop的yarn是一樣的作用，master會通知有資源的伺服器節點，去主動的和driver互動，這一步也叫反向註冊，其實說的高大上，說白了就是讓伺服器子節點和driver去互動，master不參與了，不過在master通知伺服器子節點和driver反向註冊的時候，會通知它們啟動executor程序

而driver和子節點在反向註冊之後，driver會根據rdd，也叫彈性資料集，來構建乙個叫做dag有向無環圖的東西，同時driver自身裡面有兩個排程器，dag排程器，它的存在是將driver構成的dag又向無環圖，解析為多個stage，每乙個stage有被分解問多個task組成的taskset

這裡值得一提的是，乙個任務的提交組成了乙個job，乙個job裡stage的多少是這個job中rdd的血緣決定的，而taskset中task的多少是stage處理資料的切片多少決定的，也可以理解為是分割槽決定的，因為一般為了減少不必要的網路io和集群內部的機架感知機制，促使了預設情況下乙個分割槽對應乙個切片，乙個切片預設是乙個資料塊大小，就算自定義了那也是資料交換了所在分割槽而已

言歸正傳，dag排程器處理處的taskset會交給taskset排程器去和集群子節點互動去執行並監控task，當任務結束driver程序會自動關閉

Spark任務提交流程

Spark任務提交流程

Spark任務提交流程

Spark的作業提交流程簡介

相關推薦