Hive資料傾斜

hive資料傾斜問題：

傾斜原因： map輸出資料按key hash分配到reduce中,由於key分布不均勻、或者業務資料本身的特點。】【等原因造成的reduce上的資料量差異過大。

1.1)key分布不均勻

1.2)業務資料本身的特性

1.3)sql語句造成資料傾斜

解決方案：

1>引數調節：

hive.map.aggr=true

hive.groupby.skewindata=true

有資料傾斜的時候進行負載均衡，當選項設定為true,生成的查詢計畫會有兩個mr job。第乙個mr job中，map的輸出結果集合會隨機分布到reduce中，每個reduce做部分聚合操作，並輸出結果，這樣處理的結果是相同group by key有可能被分發到不同的reduce中，從而達到負載均衡的目的；第二個mr job在根據預處理的資料結果按照 group by key 分布到reduce中(這個過程可以保證相同的 group by key 被分布到同乙個reduce中)，最後完成最終的聚合操作。

2>sql語句調節：

1)選用join key 分布最均勻的表作為驅動表。做好列裁剪和filter操作，以達到兩表join的時候，資料量相對變小的效果。

2)大小表join：使用map join讓小的維度表（1000條以下的記錄條數）先進記憶體。在map端完成reduce。

3)大表join大表：把空值的key變成乙個字串加上乙個隨機數，把傾斜的資料分到不同的reduce上，由於null值關聯不上，處理後並不影響最終的結果。

4)count distinct大量相同特殊值：count distinct時，將值為空的情況單獨處理，如果是計算count distinct，可以不用處理，直接過濾，在做後結果中加1。如果還有其他計算，需要進行group by，可以先將值為空的記錄單獨處理，再和其他計算結果進行union

Hive資料傾斜

HIVE 資料傾斜

hive資料傾斜

hive 資料傾斜介紹

Hive資料傾斜

HIVE 資料傾斜

hive資料傾斜

hive 資料傾斜介紹

相關推薦