MapReduce執行流程

2021-09-11 17:19:58 字數 608 閱讀 4245

1.客戶端提交作業給yarn集群,rm接受客戶端所提交的作業。

2.rm根據作業所要處理的檔案來決定map任務在哪些節點上執行,然後確定reduce任務在哪些節點【nn】上執行。

3.rm分配map任務和reduce任務到相應的節點上。

4.map任務開始執行,將執行結果臨時儲存到本地【執行過map任務的節點】。

5.當map任務執行完成之後,reduce任務開始執行,reduce任務從遠端節點上獲取資料。

6.reduce任務執行完成,得到最終的結果。

shuffle,洗牌:

1.分割槽:決定從map端出來的資料進入哪個reducer。

reducer>1:

1.計算k2的雜湊值;

2.使用該雜湊值整除以reducer的個數;

3.餘數是x,就讓該資料進入編號為x的reducer。

2.分組:讓k2相同的v2形成集合;在分組的時候,各個map的執行結果資料要進行彙總處理。

3.排序:決定哪一組資料先讓reducer處理;

1、map同一時刻只能處理一行資料;處理一行資料,map方法被呼叫一次。

2、reduce同一時刻只能處理一組資料;處理一組資料,reduce方法被呼叫一次。

MapReduce執行流程

mapreduce的大體流程是這樣的,如圖所示 由可以看到mapreduce執行下來主要包含這樣幾個步驟 1.首先對輸入資料來源進行切片 2.master排程worker執行map任務 3.worker讀取輸入源片段 4.worker執行map任務,將任務輸出儲存在本地 5.master排程work...

MapReduce執行流程

mapreducer工作流程圖 mapreducer工作流程 reducer shuffle start 6.reducer shuffle啟動後會到不同的map結果檔案中拉取相同區號的結果檔案,再合併這些來自不同map的結果檔案,再將這些檔案合併 歸併演算法 產生的大檔案是分割槽且排序且分好組了的...

MapReduce作業執行流程

一.mapreduce作業執行流程 根據原始碼分析作業的提交流程時序圖如下 mr的作業流程圖 1.在客戶端啟動乙個作業。2.通過jobclient向jobtracker請求乙個job id和資源檔案存放路徑。3.將執行作業所需要的資源檔案複製到hdfs上,包括mapreduce程式打包的jar檔案 ...