Spark執行原理

2021-08-28 19:00:35 字數 602 閱讀 3035

1 建立sparkcontext物件,然後sparkcontext會向clutser manager(集群資源管理器),例如yarn、standalone、mesos等申請資源

2 資源管理器在worker節點上建立executor並分配資源(cpu、記憶體等),後期excutor會定時向資源管理器傳送心跳資訊

3 sparkcontext啟動dagscheduler,將提交的作業(job)轉換成若干stage,各stage構成dag(directed acyclic graph有向無環圖),各個stage包含若干相task,這些task的集合被稱為taskset

4 taskset傳送給taskset scheduler,taskset scheduler將task傳送給對應的executor,同時sparkcontext將應用程式**傳送到executor,從而啟動任務的執行

5 executor執行task,完成後釋放相應的資源。

spark 執行原理

sparkcontext 乙個執行緒只有乙個 spark的job都是jvm的程序 在spark 2.0之前,sparkcontext是所有spark任務的入口,無論spark集群有多少個節點做並行處理,每個程式只可以有唯一的sparkcontext,它可以被sparkconf物件初始化 spark ...

Spark任務執行原理

首先,先看一幅圖 以上圖中有四個機器節點,driver 和 worker 是啟動在伺服器節點上的程序,這些程序都執行在 jvm 中。上述圖的執行步驟 driver 與集群節點之間有頻繁的通訊。driver 負責任務 tasks 的分發和結果的 任務的排程。如果 task的計算結果非常大就不要 了,會...

Spark開發 spark執行原理和RDD

核心 1 spark執行原理 2 rdd 1 spark執行原理 spark應用程式基本概念spark基本工作流程spark 應用程式程式設計模型 1 driver program sparkcontext 1 1匯入spark的類和隱式轉換 1 2構建spark應用程式的執行環境 sparkcon...