MapReduce 程式設計模型

mapreduce 是一種簡化平行計算的程式設計模型，用於大資料量的計算。它的核心思想是「分散任務，彙總結果」，將大規模資料集的操作分發給乙個主節點管理下的各個子節點共同完成，然後整合各個子節點的中間結果，從而得到最終結果。

mapreduce的優點：

1、便於程式設計：mapreduce 只需簡單地實現一些介面，便可以完成完成乙個分布式程式。

2、拓展性：可以通過新增機器來拓展它的計算能力。

3、高容錯性：當節點掛機，可以將計算任務轉移到另外一台節點上進行。

4、對大量級的資料進行離線處理。

缺點：1、實時計算差

2、不支援流式計算，資料來源必須是靜態的

mapreduce 程式設計模型

mapreduce 由兩個階段組成：map 和 reduce

reduce 階段由一定數量的reduce task組成

1、資料遠端拷貝（從 map task 的輸出拷貝部分資料）

2、資料按照key排序分組，可以相同的都存放在一起，按照key 進行分組，每一組交給reducer進行處理。

3、資料處理：reducer

4、資料輸出格式：outputformat(輸出的檔案格式、分隔符的設定)

使用者只需編寫map()和reduce() 兩個函式，即可完成簡單的分布式程式的設計。

map()函式以key/value對作為輸入，產生一系列的key/value對作為中間結果寫入到本地磁碟。mapreduce 框架會自動將這些中間資料按照key值進行聚集（預設是對key的hash值取模），相同key值的資料會被統一交給reduce()函式進行處理。

reduce()函式以key 對應的value 列表作為輸入，經合併key 相同的value 值後，產生一系列的key/value 對作為最終輸出寫入到hdfs。