簡單解釋MapReduce演算法

文章**：

mapreduce演算法例子

你想數出一摞牌中有多少張黑桃。直觀方式是一張一張檢查並且數出有多少張是黑桃。

mapreduce方法則是：

①給在座的所有玩家中分配這摞牌

②讓每個玩家數自己手中的牌有幾張是黑桃，然後把這個數目匯報給你

③你把所有玩家告訴你的數字加起來，得到最後的結論

mapreduce演算法背景

谷歌在2023年發表了可以分析大量資料的mapreduce演算法。每當你聽到「大資料」這個詞時，它指的是因為太大而讓僅僅一台機器難以有效儲存或分析的問題。mapreduce通過把計算量分配給不同的計算機群，能夠解決大部分和大資料有關的分析問題。hadoop提供了最受歡迎的利用mapreduce演算法來管理大資料的開源方式。現今mapreduce是主流。

所以通常來說，每當你聽到「大資料」，那也許意味著hadoop被用來儲存資料，也通常意味著資料的抽取和檢索是用的mapreduce。

拆分mapreduce演算法

mapreduce合併了兩種經典函式：

重新審視上面的mapreduce演算法例子通過把牌分給多個玩家並且讓他們各自數數，你就在並行執行運算，因為每個玩家都在同時計數。這同時把這項工作變成了分布式的，因為多個不同的人在解決同乙個問題的過程中並不需要知道他們的鄰居在幹什麼。

通過告訴每個人去數數，你對一項檢查每張牌的任務進行了對映。你不會讓他們把黑桃牌遞給你，而是讓他們把你想要的東西化簡為乙個數字。

另外乙個有意思的情況是牌分配得有多均勻。mapreduce假設資料是洗過的（shuffled）- 如果所有黑桃都分到了乙個人手上，那他數牌的過程可能比其他人要慢很多。

如果有足夠的人的話，問一些更有趣的問題就相當簡單了 – 比如「一摞牌的平均值（二十一點演算法）是什麼」。你可以通過合併「所有牌的值的和是什麼」及「我們有多少張牌」這兩個問題來得到答案。用這個和除以牌的張數就得到了平均值。

對mapreduce演算法的結論

mapreduce演算法的機制要遠比這複雜得多，但是主體思想是一致的 – 通過分散計算來分析大量資料。無論是facebook、nasa，還是小創業公司，mapreduce都是目前分析網際網路級別資料的主流方法。有趣的是，mapreduce在多於10pb資料時趨向於變慢，所以谷歌在他們今年的io大會上報告稱mapreduce已經不夠他們用了。

簡單解釋MapReduce演算法

如何簡單解釋 MapReduce演算法

MapReduce通俗解釋方法

KMP 演算法簡單解釋

簡單解釋MapReduce演算法

如何簡單解釋 MapReduce演算法

MapReduce通俗解釋方法

KMP 演算法簡單解釋

相關推薦