Hive 實戰優化策略

2018-06-14更新：更新8

hive 在大資料執行時，真的是很慢，跑一張表經常就是跑幾個小時，一天下來跑不了幾張表，通過一段時間學習，總結幾個常用的hive 優化方法，希望對新手有點幫助，我也是新手，部落格存在問題的地方，請大家批評指正，共同學習、進步，謝謝！

hive -f /路徑/filename 執行打包檔案，可以在下班之後，確保**沒有問題的情況下，打包執行，第二天再來看結果，可能也會快一點

1、增加reduce數量：通過set mapred.reduce.tasks=2000；將reduce數量增加，提高執行效率，而map的資料無法變更的，需要調整map的儲存容量，這個在配置檔案裡面，一般最大容量是256m；

2、set hive.fetch.task.conversion=more 調整hive 執行方式，查sample資料時，不需要執行mapreduce，能夠加快速度，或者desc table 檢視相關字段，也是乙個辦法

3、set hive.auto.convert.join=true 優化小表、大表連線；通過這種方式，能夠將小表優先放置記憶體中，提高查詢速度，而不是在join 過程中反覆查詢大表

4、set hive.optimize.skewjoin =

true; 應對表傾斜情況，在join的過程中；

靜態設定

動態執行切換

(任務執行id)

-queue queuename

6、並行多個map，如果在map之間不存在

關聯關係的情況下，設定：set exec.parallel=true,但是同樣會消耗大量資源，請謹慎使用！或者用union all 進行合併操作

7、語句優化：能用join的就盡量join，left outer join 要少用，特別是在大、小表關聯的情況下，慎重選擇。至於去重：distinct 要少用，因為這個會導致僅僅使用乙個reduce。可以用group by去重。

8、資料傾斜也是影響mr執行速度的乙個重要原因，儘管可能設定reduce=較大數，但是還是可能存在傾斜情況，可以嘗試 set hive.groupby.skewindata=true 從而達到負載均衡的目的，加快執行速度；

以上是一些常規的優化方法，1、2、3比較常用，

4、5請謹慎使用，畢竟資源是有限的，切勿造成資源浪費，影響整個公司任務進度；