MapReduce 過程詳解

1：最簡單的過程：

map - reduce

map - partition - reduce

3：增加了在本地先進性一次reduce（本地優化），減少後期網路的傳輸量

map - combine(本地reduce) - partition - reduce

一般說來，乙個完整的mapreduce過程可以分為以上3中提到的4個步驟，下面以hadoop自帶的maxtemperature為例，說明四個步驟的工作：

假設輸入檔案的內容為：

file1:

0043012650999991949032412004+62300+010750fm-12+048599999v0202701n00461220001cn0500001n9+01111+99999999999

0067011990999991950051507004+68750+023550fm-12+038299999v0203301n00671220001cn9999999n9+00001+99999999999

0043012650999991949032418004+62300+010750fm-12+048599999v0202701n00461220001cn0500001n9+00781+99999999999

0043011990999991950051512004+68750+023550fm-12+038299999v0203201n00671220001cn9999999n9+00221+99999999999

0043011990999991950051518004+68750+023550fm-12+038299999v0203201n00261220001cn9999999n9-00111+99999999999

file2:

0043012650999991950032412004+62300+010750fm-12+048599999v0202701n00461220001cn0500001n9+00081+99999999999

0067011990999991949051507004+68750+023550fm-12+038299999v0203301n00671220001cn9999999n9+07001+99999999999

0043012650999991950032418004+62300+010750fm-12+048599999v0202701n00461220001cn0500001n9+00091+99999999999

0043011990999991949051512004+68750+023550fm-12+038299999v0203201n00671220001cn9999999n9+08021+99999999999

0043011990999991949051518004+68750+023550fm-12+038299999v0203201n00261220001cn9999999n9-00451+99999999999

一：map

b.map的輸入通過job的setinputformat指定，預設為textinputformat(每行為一條記錄，以偏移為key，行內容為value)，還可以指定為keyvaluetextinputformat [在org.apache.hadoop.mapred中]（每行為一條記錄，分隔符之前為key，之後為value，預設的分隔符是\t，通過mapred.textinputformat.seperator指定），sequencefileinputformat(鍵和值由用戶指定，序列檔案為hadoop專用的二進位制壓縮格式)，還有nlineinputformat（與textnputormat相同，但每個分片一定由n 行，n預設為1，通過，mapred.line.input.format.linespermap設定[在eclipse的hadoop引數的edit hadoop location中的高階引數設定中]）

c.map的輸出與輸入格式類似，反推即可，例如對應sequencefileinputformat，輸出類為sequencefileoutputformat

處理輸入資料，將資料按照使用者想要的形式collect起來

在經過這個步驟後，現在的其中乙個map輸出資料為以下形式:<1949,111>,<1950,0>,<1949,78>,<1950,22>,<1950,-11>

二：combine

combiner是在本地進行的乙個reduce的過程，其目的是提高hadoop的效率。

直接將資料交給下乙個步驟處理，這個例子中存在三個以1950為鍵的記錄，所以在下乙個步驟中需要處理三條<1950,0>,<1950,22>,<1950,-11>記錄，如果先做一次combine，則只需處理一次<1950, 22>的記錄，這樣做的乙個好處就是，當資料量很大時，減少很多開銷。（直接將partition後的結果交給reduce處理，由於 tasktracker並不一定分布在本節點，過多的冗餘記錄會影響io，與其在reduce時進行處理，不如在本地先進性一些優化以提高效率）

三：partition

partitioner相當與乙個分發器，將map處理後的輸出分發給reduce去執行。得到map給的記錄後，他們該分配給哪些reducer來處理呢？hadoop採用的預設的派發方式（預設的partition實現）是根據雜湊值來派發的，但是實際中，這並不能很高效或者按照我們要求的去執行任務。例如，經過預設partition處理後，乙個節點的reducer分配到了20條記錄，另乙個卻分配道了10w萬條，試想，這種情況效率如何。又或者，我們想要處理後得到的檔案按照一定的規律進行輸出，假設有兩個reducer，我們想要最終結果中part- 00000中儲存的是"h"開頭的記錄的結果,part-00001中儲存其他開頭的結果，這些預設的partitioner是做不到的。所以需要我們自己定製partition來根據自己的要求，選擇記錄的reducer。

自定義partitioner很簡單，只要自定義乙個類，並且繼承partitioner類，重寫其getpartition方法就好了，在使用的時候通過呼叫job的setpartitionerclass指定一下即可

備註：hadoop的partition過程會根據資料格式，選擇相應的比較規則對資料進行排序

四：reduce

reduce就是所謂的歸併階段，此階段實際上包含三個小的階段：

1、shuffle

分配了reduce任務的節點，通過網路使用http的方式將排序後的輸出結果從每乙個執行map節點的相應分割槽上覆制過來。

2、sort

mapreduce框架根據鍵合併（由於執行map的不同節點可能會產生相同的key-value）、排序reduce節點的輸入資料。

shuffle階段和sort階段同時發生，例如當輸出獲取到的同時，它們也會被合併。

secondarysort（二次排序）：

為了在value迭代器返回的值上進行二次排序，應用需要用使用第二個鍵擴充套件原來的鍵，同時定義乙個分組比較器。這些鍵使用所有的鍵進行排序，但是分組的時候使用分組比較器來決定哪些鍵值對放在

放在一起，然後傳送給同乙個reduce呼叫來歸併。分組比較器指定通過job.setgroupingcomparatorclass(class)設定，而排序的順序通過job.setsortcomparatorclass(class)控制。

舉例如下：

例如，假設你想查詢網頁的副本個數同時用最簡單的方式標記他們的url。你的job將會設定如下：

3、reduce

在這個階段，我們的資料是以的方式儲存的，對於每乙個資料都會呼叫reduce方法。以maxtemperature的例子來說，此時的記錄應該是file 1的reduce前（表述不確切）： <1950，22>，file 2的reduce前（表述不確切）： <1950，09>，那麼reduce後的結果為<1950,22>。

此時，只要根據需求，處理key和values即可

最終結果：

1949 111

1950 22

1：最簡單的過程：

map - reduce

map - partition - reduce

3：增加了在本地先進性一次reduce（本地優化），減少後期網路的傳輸量

map - combine(本地reduce) - partition - reduce

一般說來，乙個完整的mapreduce過程可以分為以上3中提到的4個步驟，下面以hadoop自帶的maxtemperature為例，說明四個步驟的工作：

假設輸入檔案的內容為：

file1:

MapReduce 過程詳解

MapReduce過程詳解

詳解MapReduce過程

MapReduce過程詳解

MapReduce 過程詳解

MapReduce過程詳解

詳解MapReduce過程

MapReduce過程詳解

相關推薦