hive的壓縮配置

2021-09-24 20:03:39 字數 834 閱讀 1058

在資料量特別大的情況下,資料來自hive的mapreduce查詢,

發現效率特別慢在hive上使用insert overwrite local  directory "***" select將資料匯入到本地的hdfs上時直接報錯,

那麼我那麼就需要在hive和hadoop上配置壓縮方式

在執行hive的類sql語句之前,需開啟一下配置

2.對hive開啟以下配置

設定開啟hive的壓縮

set hive.exec.compress.output=true;  

設定開啟mapreduce的壓縮

set  mapreduce.output.fileoutputformat.compress=true;

配置reduce輸出使用的壓縮型別預設的是record

set mapreduce.output.fileoutputformat.compress.type=block;

1.對hadoop的core-site.xml配置如下

io.compression.codecs

org.apache.hadoop.io.compress.gzipcodec,

org.apache.hadoop.io.compress.defaultcodec,

org.apache.hadoop.io.compress.bzip2codec

還可以新增如下配置

org.apache.hadoop.io.compress.gzipcodec,

org.apache.hadoop.io.compress.lz4codec,

com.hadoop.compression.lzo.lzopcodec

hive壓縮設定

優點 1,減少儲存磁碟空間,降低單節點的磁碟io。2,由於壓縮後的資料占用的頻寬更少,因此可以加快資料在hadoop集群流動的速度。例如在不同節點建立3個replica的階段,或是shuffle階段。首先說明mapreduce哪些過程可以設定壓縮 需要分析處理的資料在進入map前可以壓縮,然後解壓處...

Hive 壓縮格式

常見壓縮格式 壓縮方式 壓縮比壓縮速度 解壓縮速度 是否可分割 gzip 13.4 21 mb s 118 mb s 否bzip2 13.2 2.4mb s 9.5mb s 是lzo 20.5 135 mb s 410 mb s 是22.2 172 mb s 409 mb s 否壓縮格式對應的編 解...

黑猴子的家 Hive 之 Hadoop壓縮配置

1 mr支援的壓縮編碼 壓縮格式 工具演算法 副檔名 是否可切分 default 無default deflate 否gzip gzip default gz否 bzip2 bzip2 bzip2 bz2 是lzo lzop lzo.lzo 否lz4 無lz4 lz4否無 否2 編碼 解碼器 為了支...