HDFS學習筆記（8）mapreduce原理

mapreduce 從它名字上來看就大致可以看出個緣由，兩個動詞map和reduce，「map（展開）」就是將乙個任務分解成為多個任務，「reduce」就是將分解後多工處理的結果彙總起來，得出最後的分析結果。這不是什麼新思想，其實在前面提到的多執行緒，多工的設計就可以找到這種思想的影子。不論是現實社會，還是在程式設計中，一項工作往往可以被拆分成為多個任務，任務之間的關係可以分為兩種：一種是不相關的任務，可以並行執行；另一種是任務之間有相互的依賴，先後順序不能夠顛倒，這類任務是無法並行處理的。回到大學時期，教授上課時讓大家去分析關鍵路徑，無非就是找最省時的任務分解執行方式。在分布式系統中，機器集群就可以看作硬體資源池，將並行的任務拆分，然後交由每乙個空閒機器資源去處理，能夠極大地提高計算效率，同時這種資源無關性，對於計算集群的擴充套件無疑提供了最好的設計保證。任務分解處理以後，那就需要將處理以後的結果再彙總起來，這就是reduce要做的工作。結構圖如下：

網上有個簡單的比喻來解釋mapreduce原理：

我們要數圖書館中的所有書。你數1號書架，我數2號書架。這就是「map」。我們人越多，數書就更快。

現在我們到一起，把所有人的統計數加在一起。這就是「reduce」。

假設我們需要處理一批有關天氣的資料，其格式如下：

0067011990999991950051507+0000+

0043011990999991950051512+0022+

0043011990999991950051518-0011+

0043012650999991949032412+0111+

0043012650999991949032418+0078+

0067011990999991937051507+0001+

0043011990999991937051512-0002+

0043011990999991945051518+0001+

0043012650999991945032412+0002+

0043012650999991945032418+0078+

現在需要統計出每年的最高溫度。

map-reduce主要包括兩個步驟：map和reduce

每一步都有key-value對作為輸入和輸出：

對於上面的例子，在map過程，輸入的key-value對如下：

(0, 0067011990999991950051507+0000+)

(33, 0043011990999991950051512+0022+)

(66, 0043011990999991950051518-0011+)

(99, 0043012650999991949032412+0111+)

(132, 0043012650999991949032418+0078+)

(165, 0067011990999991937051507+0001+)

(198, 0043011990999991937051512-0002+)

(231, 0043011990999991945051518+0001+)

(264, 0043012650999991945032412+0002+)

(297, 0043012650999991945032418+0078+)

在map過程中，通過對每一行字串的解析，得到年-溫度的key-value對作為輸出：

(1950, 0)

(1950, 22)

(1950, -11)

(1949, 111)

(1949, 78)

(1937, 1)

(1937, -2)

(1945, 1)

(1945, 2)

(1945, 78)

在reduce過程，將map過程中的輸出，按照相同的key將value放到同乙個列表中作為reduce的輸入

(1950, [0, 22, –11])

(1949, [111, 78])

(1937, [1, -2])

(1945, [1, 2, 78])

在reduce過程中，在列表中選擇出最大的溫度，將年-最大溫度的key-value作為輸出：

(1950, 22)

(1949, 111)

(1937, 1)

(1945, 78)

其邏輯過程可用如下圖表示：

一般遵循以下格式：

void map(k1 key, v1 value, outputcollectoroutput, reporter reporter)

throws ioexception;}

public inte***ce reducerextends jobconfigurable, closeable

@override

public void map(longwritable key, text value, outputcollectoroutput, reporter reporter) throws ioexception else

output.collect(new text(year), new intwritable(airtemperature));}}

實現的reducer如下：

public class maxtemperaturereducer extends mapreducebase implements reducer

output.collect(key, new intwritable(maxvalue));}}

欲配置jobconf，需要大致了解hadoop執行job的基本原理（後面還會細說）：

hadoop將輸入的資料分成固定大小的塊，我們稱之input split

hadoop為每乙個input split建立乙個task，在此task中依次處理此split中的乙個個記錄(record)

hadoop會盡量讓輸入資料塊所在的datanode和task所執行的datanode(每個datanode上都有乙個tasktracker)為同乙個，可以提高執行效率，所以input split的大小也一般是hdfs的block的大小。

reduce task的輸入一般為map task的輸出，reduce task的輸出為整個job的輸出，儲存在hdfs上。

在reduce中，相同key的所有的記錄一定會到同乙個tasktracker上面執行，然而不同的key可以在不同的tasktracker上面執行，我們稱之為partition

public inte***ce partitionerextends jobconfigurable

下圖大概描述了map-reduce的job執行的基本原理：

下面我們討論jobconf，其有很多的項可以進行配置：

當然不用所有的都設定，由上面的例子，可以編寫map-reduce程式如下：

public class maxtemperature

jobconf conf = new jobconf(maxtemperature.class);

conf.setjobname("max temperature");

fileinputformat.addinputpath(conf, new path(args[0]));

fileoutputformat.setoutputpath(conf, new path(args[1]));

conf.setreducerclass(maxtemperaturereducer.class);

conf.setoutputkeyclass(text.class);

conf.setoutputvalueclass(intwritable.class);

jobclient.runjob(conf);}}

HDFS學習筆記（8）mapreduce原理

python學習筆記 高階函式map reduce

HDFS學習筆記

HDFS學習筆記

相關推薦

python學習筆記高階函式map reduce