大資料中的相關壓縮

2021-10-12 04:56:31 字數 1558 閱讀 6338

可以在輸入端,中間資料和輸出資料段進行壓縮

並同步core-site.xml到其他機器

<?xml version="1.0" encoding="utf-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

>

>

>

io.compression.codecsname

>

>

org.apache.hadoop.io.compress.gzipcodec,

org.apache.hadoop.io.compress.defaultcodec,

org.apache.hadoop.io.compress.bzip2codec,

com.hadoop.compression.lzo.lzocodec,

com.hadoop.compression.lzo.lzopcodec

value

>

property

>

>

>

io.compression.codec.lzo.classname

>

>

com.hadoop.compression.lzo.lzocodecvalue

>

property

>

configuration

>

並同步mapred-site.xml到其他機器

下面例子使mapreduce輸出端到hdfs為bzip2格式

>

>

>

mapreduce.output.fileoutputformat.compressname

>

>

falsevalue

>

property

>

>

>

mapreduce.output.fileoutputformat.compress.codecname

>

>

org.apache.hadoop.io.compress.bzip2codecvalue

>

property

>

configuration

>

設定hive輸出壓縮格式為bzip2

set hive.exec.compress.output=true;

set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.bzip2codec;

大資料中的壓縮

優點 節省磁碟空間,提公升磁碟利用率,加速磁碟 網路io 缺點 解壓 壓縮是需要cpu的,壓縮會使集群cpu利用率高,所以當集群負載高了就不要使用壓縮了 總結來說,需不需要使用壓縮是磁碟和cpu的取捨,也反映了大資料層面的任何調優都不是萬能的,都需要根據實際需求來做調優。從是否分片考慮 bzip2 ...

大資料裡常見的幾種壓縮格式壓縮

離線處理流程 為什麼使用壓縮 當使用mapreduce經過etl後落到hdfs上時,若使用普通文字格式txt 那一般副本數為三,若乙個副本為500t,500 3 1500?顯然是不現實的。壓縮的第乙個好處,就是節省我們的磁碟空間,提公升磁碟利用率,第二個就是加速我們網路的傳輸。缺點 需要占用cpu資...

大資料相關資源

1,大資料不眠夜 spark核心天機解密 共140講 2,hadoop深入淺出實戰經典 3,spark純實戰公益大講壇 4,scala深入淺出實戰經典 5,docker公益大講壇 6,spark亞太研究院spark公益大講堂 4,spark亞太研究院決勝大資料時代公益大講堂 5,雲計算docker虛...