Spark執行架構

2021-09-06 17:22:12 字數 654 閱讀 9296

在driver program中新建sparkcontext(包含sparkcontext的程式稱為driver program); ;

2、sparkcontext向資源管理器申請執行executor資源,並啟動standaloneexecutorbackend,executor向sparkcontent申請task;

應用**將會被傳送到各個executor;

4、sparkcontext構建rdd dag圖,將rdd dag圖分解成stage dag圖,將stage提交給taskscheduler,最後由taskscheduler將

task傳送給executor執行

5、task在executor上執行,執行完畢後釋放所有資源;

spark執行架構特點:

2、spark並不關心底層用什麼cluster manager在運作,它只關心是否能拿到executor並能保持相互通訊即可,因為最終的task是執行在executor上;

4、task採用了資料本地性和推測執行的優化機制;

詳見  

Spark執行架構

job 包含多個task組成的平行計算,乙個dag觸發的作業,由action運算元觸發,在sparkcontext中通過runjob方法向spark提交job stage job的排程單位,每個job會根據rdd的寬依賴關係被切分成很多stage,每個stage中包含一組相同的task,這組task...

Spark執行架構

spark執行架構要背下來 driver program 執行main函式的程序,並且建立了乙個sparkcontext cluster manager 乙個從cluster申請資源的外部服務 deploy mode 區分driver程序跑在 client模式下,driver跑在本地 cluster...

Spark執行架構

1.基本概念 rdd 是resillient distributed dataset 彈性分布式資料集 的簡稱,是分布式記憶體的乙個抽象概念,提供了一種高度受限的共享記憶體模型 dag 是directed acyclic graph 有向無環圖 的簡稱,反映rdd之間的依賴關係 executor 是...