什麼是大資料

5、mapreduce的核心過程----shuffle['ʃʌfl]和sort shuffle是mapreduce的心臟，了解了這個過程，有助於編寫效率更高的mapreduce程式和hadoop調優。 shuffle是指從map產生輸出開始，包括系統執行排序以及傳送map輸出到reducer作為輸入的過程。如下圖所示：

首先從map端開始分析，當map開始產生輸出的時候，他並不是簡單的把資料寫到磁碟，因為頻繁的操作會導致效能嚴重下降，他的處理更加複雜，資料首先是寫到記憶體中的乙個緩衝區，並作一些預排序，以提公升效率，如圖：

每個map任務都有乙個用來寫入「輸出資料」的「迴圈記憶體緩衝區」，這個緩衝區預設大小是100m（可以通過io.sort.mb屬性來設定具體的大小），當緩衝區中的資料量達到乙個特定的閥值(io.sort.mb * io.sort.spill.percent，其中io.sort.spill.percent預設是0.80)時，系統將會啟動乙個後台執行緒把緩衝區中的內容spill到磁碟。在spill過程中，map的輸出將會繼續寫入到緩衝區，但如果緩衝區已經滿了，map就會被阻塞直到spill完成。spill執行緒在把緩衝區的資料寫到磁碟前，會對他進行乙個二次排序，首先根據資料所屬的partition排序，然後每個partition中再按key排序。輸出包括乙個索引檔案和資料檔案，如果設定了combiner，將在排序輸出的基礎上進行。combiner就是乙個mini reducer，它在執行map任務的節點本身執行，先對map的輸出作一次簡單的reduce，使得map的輸出更緊湊，更少的資料會被寫入磁碟和傳送到reducer。spill檔案儲存在由mapred.local.dir指定的目錄中，map任務結束後刪除。每當記憶體中的資料達到spill閥值的時候，都會產生乙個新的spill檔案，所以在map任務寫完他的最後乙個輸出記錄的時候，可能會有多個spill檔案，在map任務完成前，所有的spill檔案將會被歸併排序為乙個索引檔案和資料檔案。如圖3所示。這是乙個多路歸併過程，最大歸併路數由io.sort.factor控制(預設是10)。如果設定了combiner，並且spill檔案的數量至少是3（由min.num.spills.for.combine屬性控制），那麼combiner將在輸出檔案被寫入磁碟前執行以壓縮資料。大快大資料平台（dkh）,是大快公司為了打通大資料生態系統與傳統非大資料公司之間的通道而設計的一站式搜尋引擎級，大資料通用計算平台。傳統公司通過使用dkh，可以輕鬆的跨越大資料的技術鴻溝，實現搜尋引擎級的大資料平台效能。  dkh，有效的整合了整個hadoop生態系統的全部元件，並深度優化，重新編譯為乙個完整的更高效能的大資料通用計算平台，實現了各部件的有機協調。因此dkh相比開源的大資料平台，在計算效能上有了高達5倍（最大）的效能提公升。  dkh，更是通過大快獨有的中介軟體技術，將複雜的大資料集群配置簡化至三種節點（主節點、管理節點、計算節點），極大的簡化了集群的管理運維，增強了集群的高可用性、高可維護性、高穩定性。  dkh，雖然進行了高度的整合，但是仍然保持了開源系統的全部優點，並與開源系統100%相容，基於開源平台開發的大資料應用，無需經過任何改動，即可在dkh上高效執行，並且效能會有最高5倍的提公升。 dkh標準平台技術構架圖

什麼是大資料

大資料什麼是大資料

大資料什麼是大資料？

大資料什麼是大資料？

什麼是大資料

大資料 什麼是大資料

大資料 什麼是大資料？

大資料 什麼是大資料？

相關推薦

大資料什麼是大資料

大資料什麼是大資料？

大資料什麼是大資料？