大資料之MapReduce工作機制

2022-07-20 16:03:17 字數 969 閱讀 1784

mapreduce分布式計算系統,搭配yarn集群配合實現大資料計算任務。我們這裡不講mapreduce的**具體實現,而是講mapreduce的執行機制以及它的一些核心思想。了解了這些其實**都很簡單,只要有一些程式設計基礎的人都會寫得出那些**。無非就是一堆檔案的內容進行分解整合變換的過程**。

mapreduce採用的核心思想是大禹治水的「分而治之」的核心思想。將乙個或一批較大數量的檔案內容採用分發平行計算的方式對資料進行轉換、抽取、彙總等。一般作為etl中第一步extract。很多人可能納悶第二步transform不也好像是這裡做的嘛,都涉及到轉換,其實不然,etl的轉換多數指的是從我們的ods層的資料轉換到關係型資料庫中去,給最後的load到頁面上展示做準備的。好了扯得有點遠了,接下來開始介紹mapreduce的執行機制。

當我們要用mapreduce來計算乙個或一些檔案的時候,首先就是把我們的檔案存放到我們的hdfs中去,hdfs會自動把我們上傳的資料分好塊,當準備工作做好之後,就開始執行我們的mapreduce。

首先執行的就是我們的map階段,也就是的階段

到這裡呢我們的map階段就結束了,我們可以大致把這個階段分為兩個小階段,乙個是處理讀取資料的maptask階段,另乙個呢就是處理完資料對資料進行分割槽,排序,規約的mapshuffle階段。為什麼要說是mapshuffle呢因為我們都知道完整的shuffle階段其實是有四大步驟的,分割槽、排序、規約、分組。而我們的mapshuffle階段只處理了前三步,第四步分組是在我們的reducetask階段又稱為reduceshuffle。

然後呢就進入到了我們的reduce階段,也就是的階段

到此呢我們寫的mapreduce的一整個執行過程就完了。其實只要能真正理解這個過程,那麼我們寫起mapreduce的**就簡單了。無非就是把各種檔案裡的內容通過這個過程轉換成我們最終所想要的格式。

大資料之Map reduce

大資料問題一般解決方式 利用雜湊函式進行分流來解決記憶體限制或者其他限制的問題。1.雜湊函式又叫雜湊函式,雜湊函式的輸入域可以是非常大的範圍,但是輸出域是固定範圍。假設為s。雜湊函式的性質 1.典型的雜湊函式都擁有無限的輸入值域。2.輸入值相同時 返回值一樣。3.輸入值不同時,返回值可能一樣,也可能...

大資料MapReduce總結

mapreduce定義 hadoop mapreduce是乙個軟體框架,基於該框架能夠容易地編寫應用程式,這些應用程式能夠執行在由上千個商用機器組成的大集群上,並以一種可靠的,具有容錯能力的方式並行地處理上tb級別的海量資料集。mapreduce主要思想 分久必合 mapreduce兩個階段 map...

大資料 MapReduce概述

mapreduce 核心思想 總結mapreduce是乙個分布式執行程式的程式設計框架,是使用者開發 基於hadoop的資料分析應用的核心框架。mapreduce核心功能是把使用者編寫的業務邏輯 和自帶預設元件整合成乙個完整的分布式執行程式,併發執行在乙個hadoop集群上。下面分析官方wordco...