hive資料壓縮

2021-09-16 22:35:16 字數 891 閱讀 9830

hive表通常壓縮為儲存為orc檔案,預設壓縮方法為zlib(io.compression.codecs=org.apache.hadoop.io.compress.defaultcodec),壓縮比約為11%

-- 建立orc壓縮表

create table `zxdm_dim.d_acct_info_backup_orc`(

`acct_id` string,

`acct_name` string,

`realness` string,

......

`cust_first_csm_ysgg_cpc_date` string)

stored as orc;

-- 向表中插入資料

insert into zxdm_dim.d_acct_info_backup_orc select * from zxdm_dim.d_acct_info_backup;

hdfs dfs -du -h /user/hive/warehouse/zxdm_dim.db/d_acct_info_backup_orc/

orc預設使用的演算法是zlib

900m->100m 2.5g->300m

hive查詢中間結果使用壓縮,作用於shuffle過程,減少網路io

set hive.exec.compress.intermediate=true;

set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.lzocodec;

如果使用的是預設設定,則即使表a為orc,使用create table b as select * from a;建立的表b仍然是textfile而不是orc。

hive的資料壓縮

在實際工作當中,hive當中處理的資料,一般都需要經過壓縮,前期我們在學習hadoop的時候,已經配置過hadoop的壓縮,我們這裡的hive也是一樣的可以使用壓縮來節省我們的mr處理的網路頻寬 壓縮格式 工具演算法 副檔名 是否可切分 default 無default deflate 否gzip ...

hive的資料壓縮

3.通過hive shell開啟map輸出階段壓縮 4.開啟reduce輸出階段壓縮 在實際工作當中,hive當中處理的資料,一般都需要經過壓縮,前期我們在學習hadoop的時候,已經配置過hadoop的壓縮,我們這裡的hive也是一樣的可以使用壓縮來節省我們的mr處理的網路頻寬 壓縮格式 工具 演...

Hive高階之資料壓縮詳解

一般在hadoop集群上執行乙個mapreduce會有以下步驟 input map shuffle reduce output 如果我們採用了資料壓縮,在map階段產生的資料大小就會減少,會減少磁碟的io,同時還能夠減少網路的io。hadoop集群中使用壓縮演算法的要求有以下4點 1.hadoop的...