HDFS的API操作 小檔案的合併

2021-10-03 04:02:02 字數 416 閱讀 8694

由於 hadoop 擅長儲存大檔案,因為大檔案的元資料資訊比較少,如果 hadoop 集群當中有大量的小檔案,那麼每個小檔案都需要維護乙份元資料資訊,會大大的增加集群管理元資料的記憶體壓力,所以在實際工作當中,如果有必要一定要將小檔案合併成大檔案進行一起處理

cd /export/servers

hdfs dfs -getmerge /config/*.xml ./hello.xml

@test

public void mergefile() throws exception

ioutils.closequietly(outputstream);

local.close();

filesystem.close();

}

HDFS小檔案的危害

一 black塊 舉例 black塊官方設定的是64m,現在多數用的是128m 舉例 乙個檔案130m 128m 1 2m 結果是1個塊128m,1個塊2m 一碗水130ml 乙個瓶子規格容量128ml 只能2個瓶子 第1個裝滿128ml 第二個裝不滿,實為2ml 二 小檔案的危害 hdfs 適應場...

HDFS小檔案的優化

hdfs上每個檔案都要在namenode 上建立乙個索引,這個索引的大小約為150byte,這樣當小檔案比較多的時候,就 會產生很多的索引檔案,一方面會大量的占用namenode 的空間,另一方面就是索引檔案過大時得索引速度變慢。hdfs小檔案解決方案 小檔案的優化無非以下幾種方式 1 在資料採集的...

hdfs儲存小檔案archive操作及好處和原因

為什麼要給小檔案archive 未完成。commond hadoop archive 123.har name p r 將乙個目錄作為整個進行archive hadoop archive archivename 123.har p test archive r 3 test unarchive 按順...