使用hadoop的壓縮方式進行壓縮和解壓

2021-09-23 13:31:17 字數 878 閱讀 6452

壓縮格式

對應的編碼/解碼器

deflate

org.apache.hadoop.io.compress.defaultcodec

gzip

org.apache.hadoop.io.compress.gzipcodec

bzip

org.apache.hadoop.io.compress.bzip2codec

壓縮過程實現:

接受乙個字串引數,用於指定編碼/解碼器,使用反射機制建立對應的並對相應的編碼解碼物件,對檔案進行壓縮。

public static  void  compress(string method) throws classnotfoundexception, ioexception
解壓縮過程實現:

解壓檔案時,通常通過指定其拓展名來推斷解碼器。

public static void decompress(file file) throws ioexception 

file fileout = new file(file.getname());

//通過編碼/解碼器建立對應的輸入流

compressioninputstream in = codec.createinputstream(new fileinputstream(file));

fileoutputstream out = new fileoutputstream(new file("adult.data.decompress"));

ioutils.copybytes(in,out,4096,false);

in.close();

out.close();

}

資料控中Hadoop的使用方式

隨著技術發展hadoop 技術現在已經被越來越多的企業用來處理大資料,但是在apache hadoop 2.0正式發布後很多人會好奇hadoop能否適合當下資料庫及資料倉儲的使用方式呢?現在我們去看看資料控中hadoop的使用方式。apache hadoop 2.0的正式發布,開啟了史無前例的資料儲...

hadoop中的檔案壓縮

1 減少磁碟的儲存空間 2 減少磁碟io和網路io 3 加快資料傳輸速度 磁碟和網路 如果小檔案多明顯檔案傳輸會明顯降低 1 考慮檔案的壓縮效率 壓縮快慢 2 考慮檔案的壓縮比 解壓快慢 第一點好理解,壓縮的快肯定好 第二點是壓縮比,舉例現在有乙個10g的檔案,一種壓縮演算法能把他壓縮成1g,其他壓...

Hadoop中的壓縮和解壓縮

壓縮就是通過某種演算法,將原始的檔案變下,使原始的檔案變小。解壓就是將壓縮後的檔案變成原始檔案的過程。1.hadoop當中哪些過程需要用到壓縮和解壓?map端 壓縮後的原始檔案首先切成塊,然後再解壓作為輸入檔案輸入給map端,等map端將資料處理完成後然後再壓縮,放在硬碟中。shuffle過程 壓縮...