hive中對lzo壓縮檔案建立索引實現並行處理

2021-06-23 05:48:54 字數 1191 閱讀 6761

1,確保建立索引

$hadoop_home/bin/hadoop jar $hadoop_home/lib/hadoop-lzo-0.4.10.jar  com.hadoop.compression.lzo.distributedlzoindexer /user/hive/warehouse/flog

2 如果在hive中新建外部表的語句為

create external table foo (

columna string,

columnb string )

partitioned by (date string)

row format delimited fields terminated by "\t"

stored as inputformat "com.hadoop.mapred.deprecatedlzotextinputformat"

outputformat "org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat"

location '/path/to/hive/tables/foo';

3  對於已經存在的表修改語句為

alter table foo

set fileformat

inputformat "com.hadoop.mapred.deprecatedlzotextinputformat"

outputformat "org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat";

4 alter table後對已經load進表中的資料,需要重新load和建立索引,要不還是不能分塊

5 用hadoop streaming程式設計執行mapreduce作業語句為

注意 如果沒有-inputformat com.hadoop.mapred.deprecatedlzotextinputformat 選項的話map作業也不會分片

沒有-jobconf mapred.output.compression.codec=com.hadoop.compression.lzo.lzopcodec選項只設定-jobconf mapred.output.compress=true 選項的話 reduce作業輸出檔案的格式為.lzo_deflate

golang建立zip壓縮檔案

golang基礎包archive zip提供了操作zip的能力。步驟如下 使用os.create建立乙個空的檔案 file,如果存在則會被清空。使用zip.newwriter file 得到 zip.writer,使用它即可操作zip檔案。建立空目錄 zipwriter.create name di...

hive對lzo檔案並行處理的關鍵點

1,確保建立索引 hadoop home bin hadoop jar hadoop home lib hadoop lzo 0.4.10.jar com.hadoop.compression.lzo.distributedlzoindexer user hive warehouse flog 2 ...

perl動態建立zip壓縮檔案

原文 perl提供大量處理不同檔案格式的內建函式和外來模組。特別是,它可以通過archive zip模組,動態建立和閱讀zip壓縮檔案,而不必依賴外來工具和實用工具。本教程說明這個模組的基礎理論和常用方法。perl perl mcpan e install archive zip 建立zip壓縮檔案...