黑猴子的家 Hive 之 Hadoop壓縮配置

2021-08-30 08:44:13 字數 1851 閱讀 9147

1、mr支援的壓縮編碼

壓縮格式

工具演算法

副檔名

是否可切分

default

無default

.deflate

否gzip

gzip

default

.gz否

bzip2

bzip2

bzip2

.bz2

是lzo

lzop

lzo.lzo

否lz4

無lz4

.lz4否無

否2、編碼/解碼器

為了支援多種壓縮/解壓縮演算法,hadoop引入了編碼/解碼器,如下表所示

壓縮格式

對應的編碼/解碼器

deflate

org.apache.hadoop.io.compress.defaultcodec

gzip

org.apache.hadoop.io.compress.gzipcodec

bzip2

org.apache.hadoop.io.compress.bzip2codec

lzocom.hadoop.compression.lzo.lzopcodec

lz4org.apache.hadoop.io.compress.lz4codec

3、壓縮效能的比較

壓縮演算法

原始檔案大小

壓縮檔案大小

壓縮速度

解壓速度

gzip

8.3gb

1.8gb

17.5mb/s

58mb/s

bzip2

8.3gb

1.1gb

2.4mb/s

9.5mb/s

lzo8.3gb

2.9gb

49.3mb/s

74.6mb/s

4、壓縮配置引數

要在hadoop中啟用壓縮,可以配置如下引數(mapred-site.xml檔案中)

引數預設值

階段建議

io.compression.codecs(在core-site.xml中配置)

org.apache.hadoop.io.compress.defaultcodec, org.apache.hadoop.io.compress.gzipcodec, org.apache.hadoop.io.compress.bzip2codec, org.apache.hadoop.io.compress.lz4codec

輸入壓縮

hadoop使用副檔名判斷是否支援某種編解碼器

mapreduce.map.output.compress

false

這個引數設為true啟用壓縮

mapreduce.map.output.compress.codec

org.apache.hadoop.io.compress.defaultcodec

mapreduce.output.fileoutputformat.compress

false

reducer輸出

這個引數設為true啟用壓縮

mapreduce.output.fileoutputformat.compress.codec

org.apache.hadoop.io.compress. defaultcodec

reducer輸出

使用標準工具或者編解碼器,如gzip和bzip2

mapreduce.output.fileoutputformat.compress.type

record

reducer輸出

sequencefile輸出使用的壓縮型別:none和block

黑猴子的家 Hive 資料匯出

1 insert匯出 1 將查詢的結果匯出到本地 hive default insert overwrite local directory opt module datas export student select from student 2 將查詢的結果格式化匯出到本地 hive defau...

黑猴子的家 Hive 其它命令操作

1 退出hive視窗 hive default exit hive default quit 2 在hive cli命令視窗中如何檢視hdfs檔案系統 hive default dfs lsr 3 在hive cli命令視窗中如何檢視hdfs本地系統 hive default ls opt modu...

黑猴子的家 Hive 擴充套件專案一之環境準備

字段備註 詳細描述 video id 11位字串 uploader agecategory length views 次數 rate 滿分5分 ratings 流量conments related ids 2 使用者表 字段備註 字段型別 uploader 上傳者使用者名稱 string video...