map reduce的工作流程

mapreduce工作流程：wordcount

3.map-shuffle 對map結果的key根據reducer的個數進行hash寫入緩衝區（key,value,partition），當緩衝區的大小占用了80%左右，將緩衝區的資料寫入磁碟，並根據partition、key進行排序，生成乙個/多個溢寫檔案。同時，不影響剩餘20%的資料寫入緩衝區。

4.若客戶端定義了combiner，在寫溢寫檔案時將相同的key的value值相加。此種情況僅適用於輸入key/value與輸出key/value型別完全一致。將多個溢寫檔案的key /value進行merge，生成乙個group（word，[7，9，9]，partition？）。

乙個map task端生成乙個結果檔案。

5.reduce-shuffle

當5%的map task完成任務後，reducer task通過http方式從map task 拷貝資料。資料會儲存到記憶體中，當超過記憶體的閾值後，開始寫入溢寫檔案，直到map無檔案生成。溢寫檔案不斷merge（可能是根據partitionmerge？？）生成乙個最終檔案。

4.將區域性merge的結果輸入reducer，進行歸併。

map reduce的工作流程

MapReduce工作流程

詳解MapReduce工作流程

整理 map reduce工作流程

map reduce的工作流程

MapReduce工作流程

詳解MapReduce工作流程

整理 map reduce工作流程

相關推薦