Hadoop中的壓縮和解壓縮

2021-09-09 02:24:15 字數 567 閱讀 7946

壓縮就是通過某種演算法,將原始的檔案變下,使原始的檔案變小。

解壓就是將壓縮後的檔案變成原始檔案的過程。

1.hadoop當中哪些過程需要用到壓縮和解壓?

map端:壓縮後的原始檔案首先切成塊,然後再解壓作為輸入檔案輸入給map端,等map端將資料處理完成後然後再壓縮,放在硬碟中。

shuffle過程:壓縮map處理完的資料,然後存放在硬碟中,然後再解壓縮作為reduce端的輸入資料。

reduce過程:將reduce端處理完成的資料進行壓縮,再輸出。

2.有哪些壓縮和解壓的方式,各有什麼優缺點?

優點:減少磁碟的占用空間,降低網路頻寬。

缺點:就是耗費各種資源,耗費cpu資源。

關於壓縮和解壓縮

從http www.icsharpcode.net 首先需要在專案裡引用sharpziplib.dll。然後修改其中的關於壓縮和解壓縮的類。實現原始碼如下 壓縮檔案 using system using system.io using icsharpcode.sharpziplib.checksum...

壓縮和解壓縮OLEVARIANT

uses zlibex procedure varianttostream const v olevariant stream tstream varp pointer begin stream.position 0 stream.size vararrayhighbound v,1 vararra...

C 壓縮和解壓縮

話不多說,直接上 最後有重要說明!哦對了,用的是icsharpcode.sharpziplib.zip 這個東西 壓縮 先宣告個全域性變數吧 附件打包的變數 zipoutputstream zos null 下面就是壓縮的 了 protected void btnfile click object ...