MapReduce提交job到Yarn的流程學習

（6）在客戶端執行乙個mapreduce程式時，能看到map和reduce任務執行的進度百分比，這個是am在執行initialize job後建立的薄記物件完成的，這個薄記物件會收集執行在分布式各個節點上任務的進度，彙總後定時傳送給client。

（7）在執行mapreduce程式時，會先執行map任務然後再執行reduce任務（預設是執行map任務5%後再執行reduce任務），其中map任務的個數是由分片數決定的，即通過inputformat的getsplit方法得到的分片數，這個分片的資訊需要從hdfs獲取，裡面儲存的是指向實際分片資訊的引用。而reduce任務的個數則是程式中指定的，通過setnumreduces(num)來指定。

（8）mapreduce任務先執行map task，先以map task為例，後面reduce task執行流程也可參考。當準備執行map task時，am會向rm繼續傳送請求，即resource-request請求，請求獲取計算的nm和container資訊。

（11）在獲取到hdfs的jar包和配置資訊後就開始執行task，如果是map task則輸出的key-value對會儲存到各自的分割槽中去，如果是reduce task則會從對應的map分割槽中拉取資料準備進行合併、排序和分組，最後執行reduce分組計算並輸出到hdfs。不管是map task還是reduce task其都會向am上報執**況。

（12）最後執行完mapreduce任務後，儲存在分割槽中的map輸出資訊將刪除，此外儲存在hdfs中的jar包資訊、配置資訊和分片資訊也將刪除。

以上為mapreduce提交job到yarn的過程，後續再補充完善。

MapReduce提交job到Yarn的流程學習

提交官方MapReduce作業到YARN

MapReduce程式設計job概念原理

job提交作業流程

MapReduce提交job到Yarn的流程學習

提交官方MapReduce作業到YARN

MapReduce程式設計job概念原理

job提交作業流程

相關推薦