hive優化之小檔案合併

2021-10-05 00:08:39 字數 522 閱讀 5535

檔案數目過多,會給hdfs帶來壓力,並且會影響處理效率,可以通過合併map和reduce的結果檔案來消除這樣的影響:

set hive.merge.mapfiles = true ##在 map only 的任務結束時合併小檔案

set hive.merge.mapredfiles = false ## true 時在 mapreduce 的任務結束時合併小檔案

set hive.merge.size.per.task = 256*1000*1000 ##合併檔案的大小

set mapred.max.split.size=256000000; ##每個 map 最大分割大小

set mapred.min.split.size.per.node=1; ##乙個節點上 split 的最少值

set hive.input.format=org.apache.hadoop.hive.ql.io.combinehiveinputformat; ##執行 map 前進行小檔案合併

hive小檔案合併機制 Hive小檔案合併遷移

1 需求 2 小檔案合併 我們通過sparksql進行小檔案合併,首先開啟spark shell申請足夠多的資源 spark shell master yarn driver memory 20g driver cores 4 executor cores 6 num executors 18 ex...

hive小檔案優化 01

輸入小檔案優化 輸入檔案最大拆分大小,這裡設定為128m set mapred.max.split.size 128000000 128m set mapred.min.split.size.per.node 128000000 128m set mapred.min.split.size.per....

Glusterfs之小檔案優化

小檔案優化主要是通過優化檔案操作的過程和iocache來達到優化的目的。一 小檔案速度比較快的儲存系統的特點 fastdfs,mogilefs 主要適合小檔案 swift 小於50kb速度很快 1 通過定位器直接可以定位檔案儲存的節點,而不用遍歷所有節點 2 檔案路徑長度一定,不會造成路徑深度不一致...