大資料 常用壓縮方式總結

2021-09-26 22:19:52 字數 900 閱讀 1577

名gzip

bzip2

lzohadoopcodec類

gzipcodec

bzip2codec

lzopcodec

演算法deflate

gzip2

lzo副檔名

.gz.bz2

.lzo

hadoop內嵌是是

否否可切片否是是

否壓縮比(測試值)

2 (13.4%)

1 (13.2%)

3 (20.5%)

4 (22.2%)

壓縮速率

3 (21mb/s)

4 (2.4mb/s)

2 (135mb/s)

1 (172mb/s)

解壓速率

3 (118mb/s)

4 (9.5mb/s)

1 (410mb/s)

2 (409mb/s)

特點gzip壓縮比高,大部分linux系統自帶gzip命令,hadoop原生就支援使用很方便;速度較慢,而且不支援切片。

bzip2壓縮比最高,但速度實在太慢了

壓縮比尚可,速度快,支援切片(需要建立索引,且檔案修改後要重建索引,還需將 inputformat 指定為lzo)。支援hadoop native庫,但不是hadoop自帶,需要自己安裝。

使用場景

如果壓縮後大小和block差不多大可以使用。也適合磁碟不富裕要求壓縮比且對壓縮時間無特別要求的場景,如非同步離線壓縮歸檔,比如hbase寫入後的刷盤

適合很老的、極低頻使用的歷史檔案(冷資料)歸檔

特點是支援切片

實時寫入的hive底層hdfs檔案可用lzo方式壓縮

hadoop checknative

大資料中的壓縮

優點 節省磁碟空間,提公升磁碟利用率,加速磁碟 網路io 缺點 解壓 壓縮是需要cpu的,壓縮會使集群cpu利用率高,所以當集群負載高了就不要使用壓縮了 總結來說,需不需要使用壓縮是磁碟和cpu的取捨,也反映了大資料層面的任何調優都不是萬能的,都需要根據實際需求來做調優。從是否分片考慮 bzip2 ...

linux文件壓縮 解壓縮方式總結

tar 打包 tar cvf filename.tar dirname 解包 tar xvf filename.tar 注意 tar是打包,不是壓縮!gz 壓縮 gzip filename 解壓 gunzip filename gzip d filename tar.gz tgz 壓縮 tar zc...

大資料中的相關壓縮

可以在輸入端,中間資料和輸出資料段進行壓縮 並同步core site.xml到其他機器 io.compression.codecsname org.apache.hadoop.io.compress.gzipcodec,org.apache.hadoop.io.compress.defaultcod...