Shuffle機制及優化

map方法之後，reduce方法之前的資料處理過程稱之為shuffle。

具體shuffle過程詳解：

(1)maptask收集我們的map()方法輸出的kv對，放到記憶體緩衝區中

(2)從記憶體緩衝區不斷溢位本地磁碟檔案，可能會溢位多個檔案

(3)多個溢位檔案會被合併成大的溢位檔案

(4)在溢位過程及合併的過程中,都要呼叫partitioner進行分割槽和針對key進行排序

(5)reducetask根據自己的分割槽號，去各個maptask機器上取相應的結果分割槽資料

(6)reducetask會取到同乙個分割槽的來自不同maptask的結果檔案，reducetask會將這些檔案再進行合併(歸併排序)

(7)合併成大檔案後，shuffle的過程就結束了，後面進入reducetask的邏輯運算過程(從檔案中取出乙個乙個的鍵值對group,呼叫使用者自定義的reduce()方法)

注意:shuffle中的緩衝區大小會影響到mapreduce程式的執行效率，原則上說，緩衝區越大磁碟io的次數越少，執行速度就越快。

緩衝區的大小可以通過引數調整，引數:io.sort.mb默然100m

優化1.map階段

(1)增大環形緩衝區大小，有100m擴大到200m

(2)增大環形緩衝區溢寫的比例，由80%擴大到90%

(3)減少對溢寫檔案的merge

Shuffle機制流程原理

mapreduce確保每個reducer的輸入都是按鍵排序的。系統執行排序的過程即將map輸出作為輸入傳給reducer 稱為shuffle。shuffle階段是從map方法輸出資料以後開始到reduce方法輸入資料之前結束。分割槽的數量 reducetask數量結果檔案的數量首先是由map方...

MapReduce中的shuffle機制

shuffle機制是mapreduce整個處理過程中的核心機制，涉及到了分組排序資料快取以及中間結果傳遞 map結果怎麼交付給reduce 其整個過程可以用一張圖表示。當沒有自定義分組時，預設所有的key在乙個分組中。如果有自定義分組，則按照自定義的分組邏輯進行分組，對應圖中的partition...

Hadoop之Shuffle機制詳解

一般把資料從map階段輸出到reduce階段的過程叫shuffle，所以shuffle的作用範圍是map階段資料輸出到reduce階段資料輸入這一整個中間過程！1 collect階段將maptask的結果輸出到預設大小為100m的環形緩衝區，儲存的是key value序列化資料，partition...

Shuffle機制及優化

Shuffle機制流程原理

MapReduce中的shuffle機制

Hadoop之Shuffle機制詳解

相關推薦