hive對lzo檔案並行處理的關鍵點

2022-08-28 13:06:13 字數 1175 閱讀 6690

1,確保建立索引

$hadoop_home/bin/hadoop jar $hadoop_home/lib/hadoop-lzo-0.4.10.jar  com.hadoop.compression.lzo.distributedlzoindexer /user/hive/warehouse/flog

2 如果在hive中新建外部表的語句為 

create external table foo (

columna string,

columnb string )

partitioned by (date string)

row format delimited fields terminated by "\t"

stored as inputformat "com.hadoop.mapred.deprecatedlzotextinputformat"

outputformat "org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat"

location '/path/to/hive/tables/foo';

3  對於已經存在的表修改語句為

alter table foo

set fileformat

inputformat "com.hadoop.mapred.deprecatedlzotextinputformat"

outputformat "org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat";

4 alter table後對已經load進表中的資料,需要重新load和建立索引,要不還是不能分塊

5 用hadoop streaming程式設計執行mapreduce作業語句為

注意 如果沒有-inputformat com.hadoop.mapred.deprecatedlzotextinputformat 選項的話map作業也不會分片

沒有-jobconf mapred.output.compression.codec=com.hadoop.compression.lzo.lzopcodec選項,只設定-jobconf mapred.output.compress=true 選項的話 reduce作業輸出檔案的格式為.lzo_deflate

lzo檔案的並行map處理

hadoop集群中啟用了lzo後,還需要一些配置,才能使集群能夠對單個的lzo檔案進行並行的map操作,以提公升job的執行速度。首先,要為lzo檔案建立index。下面的命令對某個目錄裡的lzo檔案建立index hadoop home bin hadoop jar hadoop home lib...

hive中對lzo壓縮檔案建立索引實現並行處理

1,確保建立索引 hadoop home bin hadoop jar hadoop home lib hadoop lzo 0.4.10.jar com.hadoop.compression.lzo.distributedlzoindexer user hive warehouse flog 2 ...

joblib 對 Pandas 的並行處理

目標 如果需要對乙個很大的資料集進行操作,而基於一列資料生成新的一列資料可能都需要耗費很長時間。於是可以使用 joblib 進行並行處理。實現方法 1 無並行 import pandas as pd defdouble fun data return pow data,2 data double d...