Hadoop map reduce處理過程

1、在hadoop中，每個mapreduce任務都被初始化為乙個job。每個job又可以分成兩個階段：map階段和reduce階段；map函式接受乙個形式的輸入，然後同樣產生乙個形式的中間輸出，hadoop會負責將所有具有相同結果中間key值的value集合到一起傳給reduce函式，reduce函式接受乙個如形式的輸入，然後對這個value集合進行處理，每個reduce產生0或1個輸出，reduce的輸出也是形式。

2、map-reduce處理流程：

場景一：每個map對應乙個輸出，多個map對應有多個輸出； map輸出作為reduce的輸入，reduce進行合併排序，輸出最終結果。

場景二：mapreduce再執行過程中往往不止乙個reduce task，reduce task的數量是可以通過程式制定的，當存在多個reduce task時，每個reduce會收集乙個或多個key值。需要注意的是，當出現多個reduce task時，每個reduce task都會生成乙個輸出檔案。

場景三：另外，沒有reduce task的時候，系統會直接將map的輸出作為輸出結果作為最終結果，同時map task的數量可以看做是reduce task的數量，即：有多少個map task 就有多少個輸出檔案。

3、combine函式：在mapreduce中使用combine函式很簡單，只需再程式中新增如下內容：job.setcombinerclass(combine.class);可以制定reduce函式為combine函式，因為reduce函式有合併功能。

Hadoop map reduce處理過程

hadoop map reduce 階段筆記

Hadoop MapReduce 效能優化

九 hadoop mapreduce分割槽

Hadoop map reduce處理過程

hadoop map reduce 階段筆記

Hadoop MapReduce 效能優化

九 hadoop mapreduce分割槽

相關推薦