深入理解hadoop資料傾斜

我們在用map /reduce程式執行時，有時候會發現reduce節點大部分執行完畢，但是有乙個或者幾個reduce節點執行很慢，導致整個程式的處理時間很長，這是因為某乙個key的條數比其他key多很多（有時是百倍或者千倍之多），這條key所在的reduce節點所處理的資料量比其他節點就大很多，從而導致某幾個節點遲遲執行不完。這種現象就是因為key分布不均勻、散度不夠導致的，也就是我們所說的資料傾斜。

在hive上執行join,group by,count distinct等操作的時候可能會發現ruduce階段卡在99.99%，一直99.99%不能結束，檢視任務監控頁面，發現只有少量（1個或幾個）reduce子任務未完成；這裡進一步檢視程序日誌或者webui會發現：有乙個多幾個reduce卡住；各種container報錯oom，讀寫的資料量極大，至少遠遠超過其它正常的reduce ，伴隨著資料傾斜，會出現任務被kill等各種詭異的表現。一般情況下hive的資料傾斜，都發生在sql中group和on上，而且和資料邏輯繫結比較深。

1)hive.groupby.skewindata變數，這個變數是用於控制負載均衡的。當資料出現傾斜時，如果該變數設定為true，那麼hive會自動進行負載均衡。

2)mapjoin方式

3)count distinct的操作，先轉成group，再count

4)hive.groupby.skewindata=true

5)left semi jioin的使用

6)設定map端輸出、中間結果壓縮

深入理解hadoop資料傾斜

深入理解hadoop（三）

《深入理解Spark》之join和資料傾斜問題

Hadoop資料傾斜處理

深入理解hadoop資料傾斜

深入理解hadoop（三）

《深入理解Spark》之join和資料傾斜問題

Hadoop資料傾斜處理

相關推薦