Spark執行架構

hadoop有兩個核心模組，分布式儲存模組hdfs和分布式計算模組mapreduce

spark本身並沒有提供分布式檔案系統，因此spark的分析大多依賴於hadoop的分布式檔案系統hdfs

hadoop的mapreduce與spark都可以進行資料計算，而相比於mapreduce，spark的速度更快並且提供的功能更加豐富

關係圖如下：

hadoop、hive、spark 之間是什麼關係、什麼是yarn

lcluster manager：指的是在集群上獲取資源的外部服務，目前有：

ø standalone：spark原生的資源管理，由master負責資源的分配；

ø hadoop yarn：由yarn中的resourcemanager負責資源的分配；

l作業（job）：包含多個task組成的平行計算，往往由spark action催生，乙個job包含多個rdd及作用於相應rdd上的各種operation；

l階段（stage）：每個job會被拆分很多組task，每組任務被稱為stage，也可稱taskset，乙個作業分為多個階段；

l任務（task）：被送到某個executor上的工作任務；

Spark執行架構

job 包含多個task組成的平行計算，乙個dag觸發的作業，由action運算元觸發，在sparkcontext中通過runjob方法向spark提交job stage job的排程單位，每個job會根據rdd的寬依賴關係被切分成很多stage，每個stage中包含一組相同的task，這組task...

Spark執行架構

在driver program中新建sparkcontext 包含sparkcontext的程式稱為driver program 2 sparkcontext向資源管理器申請執行executor資源，並啟動standaloneexecutorbackend，executor向sparkcontent...

Spark執行架構

spark執行架構要背下來 driver program 執行main函式的程序，並且建立了乙個sparkcontext cluster manager 乙個從cluster申請資源的外部服務 deploy mode 區分driver程序跑在 client模式下，driver跑在本地 cluster...

Spark執行架構

Spark執行架構

Spark執行架構

Spark執行架構

相關推薦