MapReduce中Shuffle過程整理

mapreduce中的shuffle過程分為map端和reduce端兩個過程。

map端：

1.（hash partitioner）執行完map函式後，根據key進行hash，並對該結果進行reduce的數量取模（該鍵值對將會由某個reduce端處理）得到乙個分割槽號。

2.（sort combiner）將該鍵值對和分割槽號序列化之後的位元組寫入到記憶體快取區（大小為100m，裝載因子為0.8）中，當記憶體緩衝區的大小超過100*0.8 = 80m的時候，將會spill（溢位）；在溢位之前會在記憶體緩衝區中對該鍵值對和分割槽號序列化之後的位元組進行排序，並合併緩衝區中key相同的key-value對。

3.（merge）對於map結果有多個spill檔案的情況，會將這些檔案再進行一次合併，合併每個spill檔案中key相同的key-value對，然後形成一些新的檔案並刪除spiil檔案（注意：map端的輸出檔案儲存在本地磁碟上，而不是在hdfs上）；對只有乙個spill檔案的情況，直接結束map端的shuffle。

reduce端：

1. （copy）從每個map端使用http拷貝需要的檔案

2. （merge）對於從每個map端得到的檔案進行在記憶體（該記憶體不僅僅是100m，而是jvm中堆的大小，因為此時不執行reduce任務，jvm的記憶體可以全部讓merge使用）中合併，合併每個檔案中key相同的key-value對，將結果儲存在記憶體或者hdfs上，作為reduce函式的輸入。

1. 2.

MapReduce中Shuffle過程整理

MapReduce中的排序

MapReduce中的shuffle機制

mapReduce中的shuffle過程

MapReduce中Shuffle過程整理

MapReduce中的排序

MapReduce中的shuffle機制

mapReduce中的shuffle過程

相關推薦