對MapReduce的簡單理解以及歸納總結

看了google的mapreduce**，為了以後便於自己查閱，特寫一下總結：

就像摘要裡面說的，主要講了以下幾點：

1、輸入資料切分

2、真個集群的分配排程，包括如何把切分好的資料分發給map機器，以及如何把map好的資料給reduce機器。

3、集群容錯，包括worker failure以及master failure。 worker failure 解決辦法是：分配乙個沒有失效的機器重做這個失效機器上的任務。master failure解決辦法是：**寫得是如果master失效，那麼，所有的工作都泡湯了。只有讓user client端重試了。。。（現在大部分分布式系統都是設定備份master）

4、優化

4.1 資料分發的區域性性：也就是說在map階段，資料儲存到本地臨時檔案上，當reduce階段的時候，直接在本台機器，或者是在同乙個區域網相鄰的機器，節省網路頻寬

4.2 設定備份任務，當出現「straggler」時候，就會啟動備份機器，讓其也執行這個「straggler」的任務，最後整個集群的完成時間以這兩個機器最先完成的為準。

4.3有的任務要求排序功能，所以在map階段，或是在reduce階段的時候，可以擴充套件排序功能。

4.4map階段完成後對於某個key，也許會有很多的key-value對。例如：wordcount時候，像這種會很多（zipf分布）。所以能夠在map完成後，reduce執行前，先執行乙個combiner也許會更好一些。combiner和reduce的唯一不同就是：reduce會把輸出寫到最終的output file中，而combiner則是輸出到乙個intermediate file中，為reduce做準備。

4.5skipping bad records 。即在map階段遇到一些錯誤的record可以忽略不計（在資料量非常大的情況完全可以）。

先寫這麼多吧，困了。。

對MapReduce的簡單理解以及歸納總結

對MapReduce的一點理解

史上最簡單mapreduce對key的正序和倒序

對buffer的簡單理解

對MapReduce的簡單理解以及歸納總結

對MapReduce的一點理解

史上最簡單mapreduce對key的正序和倒序

對buffer的簡單理解

相關推薦