HIVE調優之去重統計

select count( distinct id ) from table_name where ...;

對乙個表中符合條件的記錄統計不重複的id的總數。由於引入了distinct，因此在map階段無法利用combine對輸出結果消重，必須將id作為key輸出，在reduce階段再對來自於不同map task、相同key的結果進行消重，計入最終統計值。作業執行時的reduce task個數為1，對於統計大資料量時，這會導致最終map的全部輸出到單個reducetask處理。這唯一的reduce task需要shuffle大量的資料，並且進行排序聚合等處理，這使得它成為整個作業的io和運算瓶頸

改進：

select count(*) from (select distinct id from table_name where … ) t;

利用hive對巢狀語句的支援，將原來乙個mapreduce作業轉換為兩個作業，在第一階段選出全部的非重複id，在第二階段再對這些已消重的id進行計數。這樣在第一階段我們可以通過增大reduce的併發數，併發處理map輸出。在第二階段，由於id已經消重，因此count(*)操作在map階段不需要輸出原id資料，只輸出乙個合併後的計數即可

HIVE調優之去重統計

hive 列表去重 Hive 資料去重

hive效能調優

Hive效能調優

HIVE調優之去重統計

hive 列表去重 Hive 資料去重

hive效能調優

Hive效能調優

相關推薦