資料傾斜的原因以及怎麼去解決

資料傾斜的原因

1.key 分布不均勻

2.業務資料本身的特性

3.sql 語句造成資料傾斜

如何解決資料傾斜

1.hive 設定 hive.map.aggr=true，hive.groupby.skewindata=true

2.有資料傾斜的時候進行負載均衡，當選項設定為 true,生成的查詢計畫會有兩個 mr job。第乙個 mr job 中， map 的輸出結果集合會隨機分布到 reduce 中，每個 reduce 做部分聚合操作，並輸出結果，這樣處理的結果是相同 group by key 有可能被分發到不同的 reduce 中，從而達到負載均衡的目的；第二個 mr job 在根據預處理的資料結果按照group by key 分布到 reduce 中(這個過程可以保證相同的 group by key 被分布到同乙個 reduce 中)，最後完成最終的聚合操作。

3.sql 語句調整:

1.選用 join key 分布最均勻的表作為驅動表。做好列裁剪和 filter 操作，以達到兩表join 的時候，資料量相對變小的效果。

2.大小表 join：使用 map join 讓小的維度表（1000 條以下的記錄條數）先進記憶體。在 map 端完成 reduce。

3.大表 join 大表：把空值的 key 變成乙個字串加上乙個隨機數，把傾斜的資料分到不同的 reduce 上，由於 null 值關聯不上，處理後並不影響最終的結果。

4.count distinct 大量相同特殊值：count distinct 時，將值為空的情況單獨處理，如果是計算 count distinct，可以不用處理，直接過濾，在做後結果中加 1。如果還有其他計算，需要進行 group by，可以先將值為空的記錄單獨處理，再和其他計算結果進行 union。

資料傾斜的原因以及怎麼去解決

什麼是資料傾斜，怎麼解決資料傾斜？

怎麼解決資料傾斜問題？

Hive 資料傾斜原因及解決方法彙總

資料傾斜的原因以及怎麼去解決

什麼是資料傾斜，怎麼解決資料傾斜？

怎麼解決資料傾斜問題？

Hive 資料傾斜原因及解決方法彙總

相關推薦