hive資料壓縮

hive表通常壓縮為儲存為orc檔案，預設壓縮方法為zlib（io.compression.codecs=org.apache.hadoop.io.compress.defaultcodec），壓縮比約為11%

-- 建立orc壓縮表 create table `zxdm_dim.d_acct_info_backup_orc`( `acct_id` string, `acct_name` string, `realness` string, ...... `cust_first_csm_ysgg_cpc_date` string) stored as orc; -- 向表中插入資料 insert into zxdm_dim.d_acct_info_backup_orc select * from zxdm_dim.d_acct_info_backup; hdfs dfs -du -h /user/hive/warehouse/zxdm_dim.db/d_acct_info_backup_orc/ orc預設使用的演算法是zlib

900m->100m 2.5g->300m

hive查詢中間結果使用壓縮，作用於shuffle過程，減少網路io

set hive.exec.compress.intermediate=true;
set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.lzocodec;

如果使用的是預設設定，則即使表a為orc，使用create table b as select * from a;建立的表b仍然是textfile而不是orc。

hive資料壓縮

hive的資料壓縮

hive的資料壓縮

Hive高階之資料壓縮詳解

hive資料壓縮

hive的資料壓縮

hive的資料壓縮

Hive高階之資料壓縮詳解

相關推薦