大資料之MapReduce工作機制

mapreduce分布式計算系統，搭配yarn集群配合實現大資料計算任務。我們這裡不講mapreduce的**具體實現，而是講mapreduce的執行機制以及它的一些核心思想。了解了這些其實**都很簡單，只要有一些程式設計基礎的人都會寫得出那些**。無非就是一堆檔案的內容進行分解整合變換的過程**。

mapreduce採用的核心思想是大禹治水的「分而治之」的核心思想。將乙個或一批較大數量的檔案內容採用分發平行計算的方式對資料進行轉換、抽取、彙總等。一般作為etl中第一步extract。很多人可能納悶第二步transform不也好像是這裡做的嘛，都涉及到轉換，其實不然，etl的轉換多數指的是從我們的ods層的資料轉換到關係型資料庫中去，給最後的load到頁面上展示做準備的。好了扯得有點遠了，接下來開始介紹mapreduce的執行機制。

當我們要用mapreduce來計算乙個或一些檔案的時候，首先就是把我們的檔案存放到我們的hdfs中去，hdfs會自動把我們上傳的資料分好塊，當準備工作做好之後，就開始執行我們的mapreduce。

首先執行的就是我們的map階段，也就是分的階段

到這裡呢我們的map階段就結束了，我們可以大致把這個階段分為兩個小階段，乙個是處理讀取資料的maptask階段，另乙個呢就是處理完資料對資料進行分割槽，排序，規約的mapshuffle階段。為什麼要說是mapshuffle呢因為我們都知道完整的shuffle階段其實是有四大步驟的，分割槽、排序、規約、分組。而我們的mapshuffle階段只處理了前三步，第四步分組是在我們的reducetask階段又稱為reduceshuffle。

然後呢就進入到了我們的reduce階段，也就是合的階段

到此呢我們寫的mapreduce的一整個執行過程就完了。其實只要能真正理解這個過程，那麼我們寫起mapreduce的**就簡單了。無非就是把各種檔案裡的內容通過這個過程轉換成我們最終所想要的格式。

大資料之MapReduce工作機制

大資料之Map reduce

大資料MapReduce總結

大資料 MapReduce概述

大資料之MapReduce工作機制

大資料之Map reduce

大資料MapReduce總結

大資料 MapReduce概述

相關推薦