hive對lzo檔案並行處理的關鍵點

1,確保建立索引

$hadoop_home/bin/hadoop jar $hadoop_home/lib/hadoop-lzo-0.4.10.jar com.hadoop.compression.lzo.distributedlzoindexer /user/hive/warehouse/flog

2 如果在hive中新建外部表的語句為

create external table foo ( columna string, columnb string ) partitioned by (date string) row format delimited fields terminated by "\t" stored as inputformat "com.hadoop.mapred.deprecatedlzotextinputformat" outputformat "org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat"

location '/path/to/hive/tables/foo';

3 對於已經存在的表修改語句為

alter table foo set fileformat inputformat "com.hadoop.mapred.deprecatedlzotextinputformat"

outputformat "org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat";

4 alter table後對已經load進表中的資料，需要重新load和建立索引，要不還是不能分塊

5 用hadoop streaming程式設計執行mapreduce作業語句為

注意如果沒有-inputformat com.hadoop.mapred.deprecatedlzotextinputformat 選項的話map作業也不會分片

沒有-jobconf mapred.output.compression.codec=com.hadoop.compression.lzo.lzopcodec選項，只設定-jobconf mapred.output.compress=true 選項的話 reduce作業輸出檔案的格式為.lzo_deflate

hive對lzo檔案並行處理的關鍵點

lzo檔案的並行map處理

hive中對lzo壓縮檔案建立索引實現並行處理

joblib 對 Pandas 的並行處理

hive對lzo檔案並行處理的關鍵點

lzo檔案的並行map處理

hive中對lzo壓縮檔案建立索引實現並行處理

joblib 對 Pandas 的並行處理

相關推薦