Hadoop中的壓縮和解壓縮

壓縮就是通過某種演算法，將原始的檔案變下，使原始的檔案變小。

解壓就是將壓縮後的檔案變成原始檔案的過程。

1.hadoop當中哪些過程需要用到壓縮和解壓？

map端:壓縮後的原始檔案首先切成塊，然後再解壓作為輸入檔案輸入給map端，等map端將資料處理完成後然後再壓縮，放在硬碟中。

shuffle過程:壓縮map處理完的資料，然後存放在硬碟中，然後再解壓縮作為reduce端的輸入資料。

reduce過程:將reduce端處理完成的資料進行壓縮，再輸出。

2.有哪些壓縮和解壓的方式，各有什麼優缺點？

優點：減少磁碟的占用空間，降低網路頻寬。

缺點：就是耗費各種資源，耗費cpu資源。

關於壓縮和解壓縮

從http www.icsharpcode.net 首先需要在專案裡引用sharpziplib.dll。然後修改其中的關於壓縮和解壓縮的類。實現原始碼如下壓縮檔案 using system using system.io using icsharpcode.sharpziplib.checksum...

壓縮和解壓縮OLEVARIANT

uses zlibex procedure varianttostream const v olevariant stream tstream varp pointer begin stream.position 0 stream.size vararrayhighbound v,1 vararra...

C 壓縮和解壓縮

話不多說，直接上最後有重要說明！哦對了，用的是icsharpcode.sharpziplib.zip 這個東西壓縮先宣告個全域性變數吧附件打包的變數 zipoutputstream zos null 下面就是壓縮的了 protected void btnfile click object ...

Hadoop中的壓縮和解壓縮

關於壓縮和解壓縮

壓縮和解壓縮OLEVARIANT

C 壓縮和解壓縮

相關推薦