hadoop中mapreduce原理過程

在企業實習的過程中，有學習到hadoop，師傅也需要我們講解mapreduce過程原理。我就把我的理解分享以下。

mr(分布式計算模型)分為2個部分map,reduce。

1. map 過程。

1.1 從hdfs讀取資料，預設一行產生一對.

1.2 每次接受到一對,呼叫一次map()方法進行計算，產生新的一對，呼叫prattioner(),計算key的hash值然後根據reduce task數量取模計算，最後將及parttion值放置緩衝區中。.

1.4 當緩衝區資料達到80%時，啟動spilt(溢寫)。將資料刷入至硬碟當中。產生乙個溢寫檔案。在溢寫時，會對內容進行排序(對序列化的位元組做的排序，根據不同的傳送到不同端的reduce,減少parttion索引記錄)

(之所以設定80%預設，方便將資料刷入硬碟的時候，任然可以接受map產生的結果)

(分割槽->排序->combine)

1.5 當資料量很大的時候，會產生多個溢寫檔案，在map task完成時，會進行merge,合併為乙個檔案。

2.reduce過程

2.1 merge階段，類似map階段的merge,將來自不同map端的資料進行整合。copy過來的數值首先放到記憶體緩衝區中。merge主要方式為從記憶體到磁碟，與map的溢寫類似，如果在此過程中設定了combiner,也是會啟用的。產生眾多的溢寫檔案。直到map端沒有資料結束。然後進行磁碟到磁碟的merge方式生成最終的檔案。

2.2最終檔案成為combine的輸入檔案，進行reduce運算。產生結果

2.3.將產生的結果輸出到hdfs上。

hadoop中mapreduce原理過程

hadoop批量計算框架 MapReduce

Hadoop的分布式計算 MapReduce

Hadoop基本原理之一 MapReduce

hadoop中mapreduce原理過程

hadoop批量計算框架 MapReduce

Hadoop的分布式計算 MapReduce

Hadoop基本原理之一 MapReduce

相關推薦