請描述一下Hadoop的shuffle過程

hadoop的shuffle過程分為map端和reduce端。

map端：map端會處理輸入資料並產生中間結果，這個中間結果會寫到本地磁碟，而不是hdfs。每個map的輸出會先寫到記憶體緩衝區中，當寫入的資料達到設定的閾值時，系統將會啟動乙個執行緒將緩衝區的資料寫到磁碟，這個過程叫做spill。

在spill寫入之前，會先進行二次排序，首先根據資料所屬的partition進行排序，然後每個partition中的資料再按key來排序。partition的目是將記錄劃分到不同的reducer上去，以期望能夠達到負載均衡，以後的reducer就會根據partition來讀取自己對應的資料。接著執行combiner(如果設定了的話)，combiner的本質也是乙個reducer，其目的是對將要寫入到磁碟上的檔案先進行一次處理，這樣，寫入到磁碟的資料量就會減少。最後將資料寫到本地磁碟產生spill檔案(spill檔案儲存在指定的目錄中，map任務結束後就會被刪除)。

最後，每個map任務可能產生多個spill檔案，在每個map任務完成前，會通過多路歸併演算法將這些spill檔案歸併成乙個檔案。至此，map的shuffle過程就結束了。

reduce端：reducetask 根據自己的分割槽號，去各個 maptask 機器上取相應的結果分割槽檔案，reducetask 會取到同乙個分割槽的來自不同 maptask 的結果檔案，reducetask 會將這些檔案再進行合併（歸併排序）。至此，reduce的shuffle過程就結束了。

請描述一下Hadoop的shuffle過程

請詳細描述一下執行緒從建立到死亡的幾種狀態都有哪些？

描述一下Spring Bean的生命週期

簡單介紹一下用例描述

請描述一下Hadoop的shuffle過程

請詳細描述一下執行緒從建立到死亡的幾種狀態都有哪些？

描述一下Spring Bean的生命週期

簡單介紹一下 用例描述

相關推薦

簡單介紹一下用例描述