Spark任務執行原理

2021-08-22 18:15:38 字數 384 閱讀 8005

首先,先看一幅圖

以上圖中有四個機器節點,driver 和 worker 是啟動在伺服器節點上的程序,這些程序都執行在 jvm 中。

上述圖的執行步驟:

driver 與集群節點之間有頻繁的通訊。

driver 負責任務(tasks)的分發和結果的**、任務的排程。如果 task的計算結果非常大就不要**了,會造成 oom(記憶體溢位)。

worker 是 standalone 資源排程框架裡面資源管理的從節點,也是jvm 程序。

master 是 standalone 資源排程框架裡面資源管理的主節點。也是jvm 程序。

spark 執行原理

sparkcontext 乙個執行緒只有乙個 spark的job都是jvm的程序 在spark 2.0之前,sparkcontext是所有spark任務的入口,無論spark集群有多少個節點做並行處理,每個程式只可以有唯一的sparkcontext,它可以被sparkconf物件初始化 spark ...

Spark執行原理

1 建立sparkcontext物件,然後sparkcontext會向clutser manager 集群資源管理器 例如yarn standalone mesos等申請資源 2 資源管理器在worker節點上建立executor並分配資源 cpu 記憶體等 後期excutor會定時向資源管理器傳送...

Spark任務執行過程解析

spark submit sparksubmit main submit dorunmain runmain 通過反射,建立我們編寫的主類的例項物件,呼叫main方法 開始執行我們的 初始化sparkcontext物件 建立初始rdd 出發action運算元 提交job worker執行任務 任務結...