MapReduce作業執行流程

2021-06-21 07:05:50 字數 732 閱讀 5154

一.mapreduce作業執行流程

根據原始碼分析作業的提交流程時序圖如下

mr的作業流程圖:

1.在客戶端啟動乙個作業。

2.通過jobclient向jobtracker請求乙個job id和資源檔案存放路徑。

3.將執行作業所需要的資源檔案複製到hdfs上,包括mapreduce程式打包的jar檔案、配置檔案和客戶端計算所得的輸入劃分資訊(通過閱讀原始碼獲得分片的計算公式為:splitsize = max(minsize,min(maxsize,blocksize)),minsize預設值是1l,maxsize預設值是2的63次方減1

)。這些檔案都存放在jobtracker專門為該作業建立的資料夾中。資料夾名為該作業的job id。jar檔案缺省會有10個副本(mapred.submit.replication屬性控制)。

4.開始提交任務(任務的描述資訊,不是jar)。

5.jobtracker程序初始化任務,jobtracker接收到作業後,將其放在乙個作業佇列裡,等待作業排程器對其進行排程。

6.讀取hdfs上的要處理的檔案,開始計算輸入分片,每乙個分片對應乙個

到此mr的作業執行流程介紹完畢。

MapReduce作業執行流程

mapreduce作業執行流程 0 準備階段 0.1 回顧hadoop配置檔案mapred site.xml mapreduce.framework.name yarn hadoop 2.x引入了一種新的執行機制。這種新機制 mr 2 建立在乙個名為yarn的系統上。而用於執行的框架通過 mapre...

MapReduce執行流程

mapreduce的大體流程是這樣的,如圖所示 由可以看到mapreduce執行下來主要包含這樣幾個步驟 1.首先對輸入資料來源進行切片 2.master排程worker執行map任務 3.worker讀取輸入源片段 4.worker執行map任務,將任務輸出儲存在本地 5.master排程work...

MapReduce執行流程

1.客戶端提交作業給yarn集群,rm接受客戶端所提交的作業。2.rm根據作業所要處理的檔案來決定map任務在哪些節點上執行,然後確定reduce任務在哪些節點 nn 上執行。3.rm分配map任務和reduce任務到相應的節點上。4.map任務開始執行,將執行結果臨時儲存到本地 執行過map任務的...