Spark執行架構

2021-09-21 05:40:55 字數 312 閱讀 9346

spark執行架構要背下來

driver program :執行main函式的程序,並且建立了乙個sparkcontext

cluster manager: 乙個從cluster申請資源的外部服務

deploy mode: 區分driver程序跑在**;client模式下,driver跑在本地; cluster模式下,driver跑在集群裡

task:作業的基本單元,每個task都會被送到乙個executor上去執行

job: 眾多task組成的平行計算,乙個spark的action運算元產生乙個job

Spark執行架構

job 包含多個task組成的平行計算,乙個dag觸發的作業,由action運算元觸發,在sparkcontext中通過runjob方法向spark提交job stage job的排程單位,每個job會根據rdd的寬依賴關係被切分成很多stage,每個stage中包含一組相同的task,這組task...

Spark執行架構

在driver program中新建sparkcontext 包含sparkcontext的程式稱為driver program 2 sparkcontext向資源管理器申請執行executor資源,並啟動standaloneexecutorbackend,executor向sparkcontent...

Spark執行架構

1.基本概念 rdd 是resillient distributed dataset 彈性分布式資料集 的簡稱,是分布式記憶體的乙個抽象概念,提供了一種高度受限的共享記憶體模型 dag 是directed acyclic graph 有向無環圖 的簡稱,反映rdd之間的依賴關係 executor 是...