大資料元件之spark中job的一系列過程如下

2021-08-30 02:22:23 字數 496 閱讀 3267

1.job,大資料的任務基本上都是按照job進行提交的。

具體的l流程如下示:

(1)第乙個過程:didbuild operator dag:主要是rdd轉換為dag的乙個過程,rdd物件,乙個rdd連線著乙個rdd,第一階段建立了rdd之後,第二個階段就是進行spilt  graph into stages of tasks:主要是完成finalstage的建立以及和stage的劃分。

(2)第二個過程:做好了stage和task的準備工作,然後就會去提交taskset。

(3)第三個過程:launch tasks via cluster manager:使用集群管理者 cluster manager 分配資源和任務,任務失敗,有乙個自己的重構和容錯機制

(4)第四個過程:executor tasks:執行任務,把中間結果和最終結果儲存到儲存體系當中。

spark 之Job排程模式

使用者通過不同的執行緒提交的job可以併發執行,但是受到資源的限制。job到排程池 pool 內申請資源,排程池會根據工程的配置,決定採用哪種排程模式。在預設情況下,spark的排程器以fifo 先進先出 方式排程job的執行。每個job被切分為多個stage。第乙個job優先獲取所有可用的資源,接...

大資料學習之Spark(1)

2019.09.101 spark的特點 2 總體架構 包括 3 常見術語 兩個抽象部件 sparkcontext rdd 必須建立乙個sparkcontext類例項,且只能擁有乙個啟用的sparkcontext類例項 1 最簡便方法 val sc new sparkcontext 2 建立spar...

大資料 Spark(八)

dag directed acyclic graph 叫做有向無環圖 有方向,無閉環,代表著資料的流向 原始的rdd通過一系列的轉換就形成了dag。下圖是基於單詞統計邏輯得到的dag有向無環圖 乙個job會被拆分為多組task,每組任務被稱為乙個stage。stage表示不同的排程階段,乙個spar...