大資料Spark應用的結構

2021-12-30 10:54:18 字數 736 閱讀 2684

大資料spark應用的結構。

driver + executor

driver:執行sparkcontext上下文的地方(jvm),sparkcontext進行初始化的地方(jvm),進行rdd初始化的地方(jvm),task執行資源申請和rdd job/task排程的排程

一般我們認為main方法的位置就是driver(main方法是sparkcontext的構建)

乙個應用只有乙個driver

executor:

具體task執行的地方,乙個executor可以執行多個task任務,乙個應用可以有多個executor

程序方面問題:

local模式:

driver 和 executor執行在同乙個程序中 sparksubmit,以執行緒的方式來區分

standalone:

driver:

在sparksubmit程序上

executor:

coarsegrainedexecutorbackend

注意:spark-submit指令碼的一次執行就是乙個spark應用(spark-shelld底層就是spark-submit)

乙個應用可以包含多個job(>=0)

乙個job裡面可以包含多個stage(>0)

乙個stage可以包含多個task(>0)

task就是最小的執行單位,是在executor處理對應分割槽資料的執行緒

task的數量和rdd的分割槽數是一致的。

大資料 Spark(八)

dag directed acyclic graph 叫做有向無環圖 有方向,無閉環,代表著資料的流向 原始的rdd通過一系列的轉換就形成了dag。下圖是基於單詞統計邏輯得到的dag有向無環圖 乙個job會被拆分為多組task,每組任務被稱為乙個stage。stage表示不同的排程階段,乙個spar...

大資料框架 spark

rdd 彈性分布式資料集。operation transformation 和action,乙個返回rdd,乙個返回值。lineage rdd之間的依賴關係,如何演變過來。partition rdd分割槽,按block切分 narrow dependency 窄依賴 父rdd全進入子rdd wide...

Spark 大資料的電花火石!

什麼是spark?可能你很多年前就使用過spark,反正當年我四六級單詞都是用的星火系列,沒錯,星火系列的洋名就是spark。當然這裡說的spark指的是apache spark,apache spark is a fast and general engine for large scale da...