Spark執行流程概述

2021-09-20 08:19:58 字數 504 閱讀 4332

cluster manager 在hadoop yarn上主要是指resourcemanager

stage 每個job會被劃分為很多組task,作為乙個taskset,名為stage.stage的劃分和排程由dagscheduler負責。stage有非最終的stage(shuffle map stage)和最終的stage(result stage)兩種。stage的邊界就是發生shuffle的地方.

共享變數 廣播變數和只支援加法操作,可以實現求和的累加變數。

寬依賴 成為shuffledependency,與hadoop mapreduce中shuffle的資料依賴相同,寬依賴需要計算好所有父rdd對應分割槽的資料,然後在節點之間進行shuffle。

窄依賴 稱為narrowdependency,指具體的rdd,其分割槽patition a 最多被子rdd中的乙個分割槽patition b依賴。只有map任務,不需要發生shuffle過程。

dagscheduler 提交stage給taskscheduler.

Spark執行流程

四個步驟 1.構建dag 呼叫rdd上的運算元 2.dagscheduler將dag切分stage 切分的依據是shuffle 將stage中生成的task以taskset的形式給taskscheduler 3.taskscheduler排程task 根據資源情況將task排程到相應的executo...

Spark執行流程

參考博文 apache spark 是專為大規模資料處理而設計的快速通用的計算引擎。hadoop雖然已成為大資料技術的事實標準,但其本身還存在諸多缺陷,最主要的缺陷是其mapreduce計算模型延遲過高,無法勝任實時 快速計算的需求,因而只適用於離線批處理的應用場景。磁碟io開銷大。每次執行時都需要...

Spark架構與執行流程

1.闡述hadoop生態系統中,hdfs,mapreduce,yarn,hbase及spark的相互關係。2.spark已打造出結構一體化 功能多樣化的大資料生態系統,請簡述spark生態系統。3.用 描述你所理解的spark執行架構,執行流程。4.軟體平台準備 linux hadoop。1.had...