MapReduce之mapTask階段詳解

整個map階段流程大體如上圖所示。

簡單概述：inputfile通過split被邏輯切分為多個split檔案，通過record按行讀取內容給 map（使用者自己實現的）進行處理，資料被map處理結束之後交給outputcollector收集器，對其結果key進行分割槽（預設使用hash分割槽），然後寫入buffer，每個map task都有乙個記憶體緩衝區，儲存著map的輸出結果，當緩衝區快滿的時候需要將緩衝區的資料以一個臨時檔案的方式存放到磁碟，當整個map task結束後再對磁碟中這個map task產生的所有臨時檔案做合併，生成最終的正式輸出檔案，然後等待reduce task來拉資料

詳細步驟

1. 讀取資料元件 inputformat (預設 textinputformat) 會通過 getsplits 方法對輸入目錄中檔案進行邏輯切片規劃得到 splits, 有多少個 split 就對應啟動多少個 maptask . split 與 block 的對應關係預設是一對一

MapReduce之mapTask階段詳解

大資料之Map reduce

MapReduce之Partition的使用與分析

Hadoop之MapReduce程式開發流程

MapReduce之mapTask階段詳解

大資料之Map reduce

MapReduce之Partition的使用與分析

Hadoop之MapReduce程式開發流程

相關推薦