hive的優化方式

一、常見的hive的優化方式有哪些

開啟執行計畫

➢explain select …

fetch模式

➢預設是開啟的，開啟後在全域性查詢、字段查詢、limit查詢等都不走mapreduce

本地模式

➢資料量小的時候通過本地模式在單台機器上處理所有的任務

//開啟本地mr

set hive.exec.mode.local.auto=true;

//設定 local mr 的最大輸入資料量，當輸入資料量小於這個值時採用 local mr 的方式

//預設為 134217728，即 128m

set hive.exec.mode.local.auto.inputbytes.max=50000000;

//設定 local mr 的最大輸入檔案個數，當輸入檔案個數小於這個值時採用 local mr 的方式，預設為4

set hive.exec.mode.local.auto.input.files.max=8;

並行執行

➢當某個job包含眾多的階段且這些階段不是完全互相依賴的，就可以並行執行，以縮短整個job的執行時間

set hive.exec.parallel=true;//開啟任務並行執行

set hive.exec.parallel.thread.number=16;//設定最大並行度，預設為8

嚴格模式

➢預設是嚴格模式，是為了防止使用者執行會產生意外影響的查詢。嚴格模式可以限制以下幾點

不允許掃瞄所有分割槽，防止全表掃瞄消耗過大的資源

orderby必須使用limit語句，orderby會將資料分發到同乙個reducer裡，強制使用limit可以防止reducer額外執行很長一段時間

限制笛卡爾積查詢。因為hive不會把where語句轉化為on語句

jvm重用

➢預設配置是使用派生的jvm來執行任務，這種方式下jvm的啟動過程會造成很大的開銷，尤其是task很多的情況。jvm例項的使用次數可以在hadoop的mapred-site.xml檔案中進行配置，通常在10-20之間。

推測執行

➢負載不均衡或資源分布不均等原因，任務之間的執行速度不一致。對於明顯慢的task，採用推測執行(speculative execution)機制，推測出拖後腿的任務並啟動乙個備份任務，和原始任務共同處理同乙份資料，最終選用先成功執行完成的計算結果作為最終結果

檔案壓縮

➢針對io密集型的job，採取檔案壓縮的方式增加吞吐量和效能，減少載入記憶體的資料量；計算密集型的job不適合，因為壓縮和解壓會消耗cpu的使用

➢常見的檔案儲存格式有：textfile、sequence files、rcfile、orcfile、parquet、parquet

在這裡插入描述

表的優化

二、表的優化

大表+小表

➢採用mapjoin，下圖為mapjoin的工作機制

在這裡插入描述

大表+大表

➢空key過濾或空key轉換

map端進行部分聚合

➢group by時某乙個key的數量過多導致對應的reducer負載過大時，採取map端部分聚合的策略。

➢生成兩個mrjob，第乙個mrjob中的map結果會隨機分不到reduce中，做部分聚合操作；第二個mrjob根據預處理的資料結果按照key分布到對應的reduce中。最終完成聚合操作

//是否在 map 端進行聚合，預設為

true set hive.map.aggr = true;

//在 map 端進行聚合操作的條目數目

set hive.groupby.mapaggr.checkinterval = 100000;

//有資料傾斜的時候進行負載均衡（預設是 false）

set hive.groupby.skewindata = true;

count(distinct)去重統計

➢資料量大時，乙個count(distinct)對應的reducetask需要處理的資料量太大，導致job很難完成。因此需要採用先groupby再count的方式替代

避免笛卡爾積

➢hive只能使用1個reducer完成笛卡爾積，會導致計算效能變低

行列過濾

➢在select中只拿需要的列，盡量不用select *；先子查詢，將查詢後的表再關聯主表，提高效率，如果直接join再用where子句過濾，則會先全表關聯再過濾，效率較低

動態分割槽調整

➢不同分割槽在不同資料夾內，在很多情況下可以避免全表掃瞄，提高查詢效率

在這裡插入描述

三、如何防止資料傾斜

1、產生資料傾斜的原因

key 分布不均勻

業務資料本身的特性

建表時考慮不周

某些 sql 語句本身就有

2、資料傾斜通用的處理方法

小檔案進行合併，減少map數

複雜檔案增加map數

設定適當的reduce個數

3、產生資料傾斜的場景和解決方案

group by 產生資料傾斜

➢開啟map端聚合引數設定

➢根據業務合理調整分組維度

select語句中包含 count（distinct）時

➢使用sum(1)… group by替代

➢把傾斜的資料單獨拿出來處理，最後union回去

大表+小表

➢mapjoin

空值產生資料傾斜

➢id為空的不參與關聯

➢給空值分配隨機的key值

hive的優化方式

hive優化方式總結

Hive 筆記五 hive的優化

hive的效能優化

hive的優化方式

hive優化方式總結

Hive 筆記五 hive的優化

hive的效能優化

相關推薦