壓縮就是通過某種演算法,將原始的檔案變下,使原始的檔案變小。
解壓就是將壓縮後的檔案變成原始檔案的過程。
1.hadoop當中哪些過程需要用到壓縮和解壓?
map端:壓縮後的原始檔案首先切成塊,然後再解壓作為輸入檔案輸入給map端,等map端將資料處理完成後然後再壓縮,放在硬碟中。
shuffle過程:壓縮map處理完的資料,然後存放在硬碟中,然後再解壓縮作為reduce端的輸入資料。
reduce過程:將reduce端處理完成的資料進行壓縮,再輸出。
2.有哪些壓縮和解壓的方式,各有什麼優缺點?
優點:減少磁碟的占用空間,降低網路頻寬。
缺點:就是耗費各種資源,耗費cpu資源。
關於壓縮和解壓縮
從http www.icsharpcode.net 首先需要在專案裡引用sharpziplib.dll。然後修改其中的關於壓縮和解壓縮的類。實現原始碼如下 壓縮檔案 using system using system.io using icsharpcode.sharpziplib.checksum...
壓縮和解壓縮OLEVARIANT
uses zlibex procedure varianttostream const v olevariant stream tstream varp pointer begin stream.position 0 stream.size vararrayhighbound v,1 vararra...
C 壓縮和解壓縮
話不多說,直接上 最後有重要說明!哦對了,用的是icsharpcode.sharpziplib.zip 這個東西 壓縮 先宣告個全域性變數吧 附件打包的變數 zipoutputstream zos null 下面就是壓縮的 了 protected void btnfile click object ...