hive案例調優

無效id在關聯時的資料傾斜問題

問題：日誌中常會出現資訊丟失，比如每日約為 20 億的全網日誌，其中的 user_id 為主鍵，在日誌收集過程中會丟失，出現主鍵為 null 的情況，如果取其中的 user_id 和 bmw_users 關聯，就會碰到資料傾斜的問題。原因是 hive 中，主鍵為 null 值的項會被當做相同的 key 而分配進同乙個計算 map。

解決方法 1：user_id 為空的不參與關聯，子查詢過濾 null

select * from log a

join bmw_users b on a.user_id is not null and a.user_id=b.user_id

union all select * from log a where a.user_id is null

解決方法 2 如下所示：函式過濾 null

select * from log a left outer

join bmw_users b on

case when a.user_id is null then concat(『dp_hive』,rand()) else a.user_id end =b.user_id;

調優結果：原先由於資料傾斜導致執行時長超過 1 小時，解決方法 1 執行每日平均時長 25 分鐘，解決方法 2 執行的每日平均時長在 20 分鐘左右。優化效果很明顯。

我們在工作中總結出：解決方法2比解決方法1效果更好，不但io少了，而且作業數也少了。解決方法1中log讀取兩次，job 數為2。解決方法2中 job 數是1。這個優化適合無效 id（比如-99、『』，null 等）產生的傾斜問題。把空值的 key 變成乙個字串加上隨機數，就能把傾斜的資料分到不同的reduce上，從而解決資料傾斜問題。因為空值不參與關聯，即使分到不同的 reduce 上，也不會影響最終的結果。附上 hadoop 通用關聯的實現方法是：關聯通過二次排序實現的，關聯的列為 partion key，關聯的列和表的 tag 組成排序的 group key，根據 pariton key分配reduce。同一reduce內根據group key排序。

hive案例調優

hive效能調優

Hive效能調優

Hive引數調優

hive案例調優

hive效能調優

Hive效能調優

Hive引數調優

相關推薦