Spark原始碼分析 Spark整體架構

2021-08-08 22:25:47 字數 737 閱讀 4563

術語

描述使用者編寫的程式。(driver端的sparkcontext、sparkconf和執行在executors上使用者編寫的業務邏輯**即map、reduce、reducebykey等)

driver

執行使用者編寫應用程式的main()方法並建立sparkcontext

worker

具體執行應用程式的節點

executor

執行worker節點上的程序,用來執行具體的task

task

被送到executor上執行的工作單位,task有shufflemaptask和resulttask

job包含很多task的平行計算,可以理解為spark rdd裡面的action,每乙個action會生成乙個job

stage

每組job都會被劃分成若干個stage

cluster manager

集群的資源管理器,在集群上獲取資源的外部服務,例如standalone、mesos、yarn

partition

類似於hadoop的split,計算是以partition為單位進行的

整個spark應用程式的執行就是stage分批次作為taskset提交到executor上執行,每個task針對rdd的乙個partition,執行我們定義的運算元和函式。直到所有操作執行完為止。

Spark 原始碼分析之spark submit

在客戶端執行指令碼sbin spark submit的時候,通過cat命令檢視原始碼可以看出,實際上在原始碼中將會執行bin spark class org.apache.spark.deploy.sparksubmit 在idea匯入的spark core的原始碼進行分析。首先spark會把初始化...

Spark原始碼分析系列(目錄)

本文 研究以spark 2.3.0對應的 spark 版本。圖1 伯克利的資料分析軟體棧bdas berkeley data analytics stack 這裡要先說bdas 伯克利資料分析棧 是伯克利大學的amplab打造的用於大資料的分析的一套開源軟體棧,這其中包括了這兩年火的爆棚的spark...

Spark 原始碼分析之SparkContext

saprkcontext非常重要,是spark提交任務到集群的入口 sparkcontext中沒有main方法,在sparkcontext主構造器中,主要做一下四件事情 1.呼叫createsparkenv 建立sparkenv,sparkenv中能夠得到actorsystem物件,用於建立acto...