常見壓縮格式

2022-07-18 01:03:12 字數 1640 閱讀 4036

缺點:壓縮格式

工具演算法

副檔名

是否可切分

對應的編碼/解碼器(org.apache.hadoop.io.compress.)

default

無default

.delete

否defaultcodec

gzip

gzip

default

.gz否

gzipcodec

bzip2

bzip2*

bzip2*

.bz2

是bzipcodec

lzolzop

lzo.lzo

是(加索引)

lzopcodec

lz4無

lz4lz4

否lz4codec無否

壓縮格式

codec類

演算法副檔名

多檔案splitable

native

工具hadoop自帶

gzip

gzipcodec

deflate

.gz否否是

gzip

是bzip2

bzip2codec

bzip2

.bz2是是

否bzip2

是lzo

lzopcodec

lzo.lzo否是

是lzop否否

否是無否

bzip2

lzo對比

壓縮格式

優點缺點

gzip

壓縮比在四種壓縮方式中較高;hadoop本身支援,在應用中處理gzip格式的檔案就和直接處理文字一樣;有hadoop native庫;大部分linux系統都自帶gzip命令,使用方便。

不支援split

lzo壓縮/解壓速度也比較快,合理的壓縮率;支援split,是hadoop中最流行的壓縮格式;支援hadoop native庫;需要在linux系統下自行安裝lzop命令,使用方便

壓縮率比gzip要低;hadoop本身不支援,需要安裝;lzo雖然支援split,但需要對lzo檔案建索引,否則hadoop也是會把lzo檔案看成乙個普通檔案(為了支援split需要建索引,需要指定inputformat為lzo格式)

壓縮速度快;支援hadoop native庫

不支援split;壓縮比低;hadoop本身不支援,

bzip2

支援split;具有很高的壓縮率,比gzip壓縮率都高;hadoop本身支援,但不支援native;在linux系統下自帶bzip2命令,使用方便

支援split,壓縮/解壓速度慢;不支援native

壓縮格式

壓縮比壓縮速率

解壓速率

gzip/deflate

13.4%

21 mb/s

118 mb/s

bzip2

13.2%

2.4 mb/s

9.5 mb/s

lzo20.5%

135 mb/s

410 mb/s

22.2%

172 mb/s

409 mb/s

選擇高壓縮比gzip或者bzip2的原因有二:

為什麼每個reduce端壓縮後的資料不要超過乙個block的大小呢?

常見的壓縮格式

減少儲存磁碟空間 降低io 網路的io和磁碟的io 加快資料在磁碟和網路中的傳輸速度,從而提高系統的處理速度 由於使用資料時,需要先將資料解壓,加重cpu負荷 需要安裝 linux系統下沒有對應的命令d.bzip2 壓縮格式 優點缺點 gzip 壓縮比在四種壓縮方式中較高 hadoop本身支援,在應...

Hive常見的壓縮格式

io.compression.codecsname org.apache.hadoop.io.compress.gzipcodec,org.apache.hadoop.io.compress.defaultcodec,com.hadoop.compression.lzo.lzocodec,com.h...

Linux 常見壓縮格式詳解

在電腦科學和資訊理論中,資料壓縮或者源編碼是按照特定的編碼機制用比未經編碼少的資料位元 或者其它資訊相關的單位 表示資訊的過程。例如,如果我們將 compression 編碼為 comp 那麼這篇文章可以用較少的資料位表示。常見的例子是zip檔案格式,此格式不僅僅提供壓縮功能,還可作為歸檔工具 ar...