ReduceTask 工作機制

reducetask 分了四個階段，第一階段是copy階段，每乙個reducetask會從所有的maptask中拷貝同乙個分割槽的資料，就是說每乙個reducetask單獨負責處理乙個分割槽，互不影響。第二階段是merge階段，首先我們假如有多個maptask，每個maptask都有相同的分割槽，reducetask要將所有相同分割槽的資料合併成乙個大檔案。這就是merge階段，將所有maptask輸出的檔案，相同分割槽，合併成乙個大檔案。也就是說乙個reducetask都要生成乙個檔案。接下來是sort階段，合併以後就會歸併排序，形成乙個有序的大檔案，進入到我們自定義的reduce() 方法中。接著reduce方法就會進一步操作我們的資料，這裡需要注意，每乙個key都會執行一次redeuce方法。在map() 方法中，每一行資料都會執行一次map方法。

reducetask會主動從所有maptask上遠端拷貝同一分割槽資料，並針對某一片資料，如果其大小超過一定閾值，則寫到磁碟上，否則直接放到記憶體中。

在遠端拷貝資料的同時，reducetask啟動了兩個後台執行緒對記憶體和磁碟上的檔案進行合併，以防止記憶體使用過多或磁碟上檔案過多。

按照mapreduce語義，使用者編寫reduce()函式輸入資料是按key進行聚集的一組資料。為了將key相同的資料聚在一起，hadoop採用了基於排序的策略。由於各個maptask已經實現對自己的處理結果進行了區域性排序，因此，reducetask只需對所有資料進行一次歸併排序即可。

reduce()函式將計算結果寫到hdfs上。

map方法之後，reduce方法之前的資料處理過程稱之為shuffle。（注意maptask和 reducetask

範圍是有重疊的，只是出發角度的問題）具體流程參考maptask和reducetask。

問題）具體流程參考maptask和reducetask。

ReduceTask 工作機制

Partition和ReduceTask的關係

MapTask與ReduceTask深入分析與調優

HttpModule工作機制

ReduceTask 工作機制

Partition和ReduceTask的關係

MapTask與ReduceTask深入分析與調優

HttpModule工作機制

相關推薦