Hadoop小檔案帶來的問題以及解決方案

小檔案指的是那些size比hdfs的block size(預設64m)小的多的檔案。hadoop適合處理少量的大檔案，而不是大量的

小檔案。

首先，在hdfs中，任何block，檔案或者目錄在記憶體中均以物件的形式儲存，每個物件約佔150byte，如果有1000 0000個小檔案，每個檔案占用乙個block，則namenode大約需要2g空間。如果儲存1億個檔案，則namenode需要20g空間。這樣namenode記憶體容量嚴重制約了集群的擴充套件。

其次，訪問大量小檔案速度遠遠小於訪問幾個大檔案。hdfs最初是為流式訪問大檔案開發的，如果訪問大量小檔案，需要不斷的從乙個datanode跳到另乙個datanode，嚴重影響效能。

最後，處理大量小檔案速度遠遠小於處理同等大小的大檔案的速度。每乙個小檔案要占用乙個slot，而task啟動將耗費大量時間甚至大部分時間都耗費在啟動task和釋放task上。

對於小檔案問題，hadoop本身也提供了幾個解決方案，分別為：hadoop archive，sequence file和combinefileinputformat。

hadoop archive或者har，是乙個高效地將小檔案放入hdfs塊中的檔案存檔工具，它能夠將多個小檔案打包成乙個har檔案，這樣在減少namenode記憶體使用的同時，仍然允許對檔案進行透明的訪問。

對某個目錄/foo/bar下的所有小檔案存檔成/outputdir/ zoo.har：

hadoop archive -archivename zoo.har -p /foo/bar /outputdir

當然，也可以指定har的大小(使用-dhar.block.size)。

har是在hadoop file system之上的乙個檔案系統，因此所有fs shell命令對har檔案均可用，只不過是檔案路徑格式不一樣，har的訪問路徑可以是以下兩種格式：

har://scheme-hostname:port/archivepath/fileinarchive

har:///archivepath/fileinarchive(本節點)

可以這樣檢視har檔案存檔中的檔案：

hadoop dfs -ls har:///user/zoo/foo.har

輸出：har:///user/zoo/foo.har/hadoop/dir1

har:///user/zoo/foo.har/hadoop/dir2

使用har時需要兩點，第一，對小檔案進行存檔後，原檔案並不會自動被刪除，需要使用者自己刪除；第二，建立har檔案的過程實際上是在執行乙個mapreduce作業，因而需要有乙個hadoop集群執行此命令。

此外，har還有一些缺陷：第一，一旦建立，archives便不可改變。要增加或移除裡面的檔案，必須重新建立歸檔檔案。第二，要歸檔的檔名中不能有空格，否則會丟擲異常，可以將空格用其他符號替換(使用-dhar.space.replacement.enable=true 和-dhar.space.replacement引數)。第三，存檔檔案不支援壓縮。

乙個歸檔後的檔案，其儲存結構如下圖：

sequence file由一系列的二進位制key/value組成，如果為key小檔名，value為檔案內容，則可以將大批小檔案合併成乙個大檔案。

hadoop-0.21.0中提供了sequencefile，包括writer，reader和sequencefilesorter類進行寫，讀和排序操作。

建立sequence file的過程可以使用mapreduce工作方式完成，對於index，需要改進查詢演算法

combinefileinputformat是一種新的inputformat，用於將多個檔案合併成乙個單獨的split，另外，它會考慮資料的儲存位置。

Hadoop小檔案帶來的問題以及解決方案

Hadoop小檔案歸檔

Hadoop小檔案優化

小檔案問題

Hadoop小檔案帶來的問題以及解決方案

Hadoop小檔案歸檔

Hadoop小檔案優化

小檔案問題

相關推薦