hdfs儲存小檔案archive操作及好處和原因

2021-09-22 12:17:13 字數 1523 閱讀 4122

為什麼要給小檔案archive

未完成。。。。

commond:

hadoop archive -123.har name -p [-r ] *

將乙個目錄作為整個進行archive

hadoop archive -archivename 123.har -p /test/archive -r 3 /test/

unarchive

按順序unarchive

hdfs dfs -cp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir

並行unarchive

hadoop distcp har:///user/zoo/foo.har/dir1 hdfs:/user/zoo/newdir

檢視歸檔檔案:

hdfs dfs -ls -r har:///user/zoo/foo.har/

hdfs dfs -ls har:///user/zoo/foo.har

刪除:hadoop fs -rmr user/zoo/foo.har

例項:archive:hadoop archive -archivename 123.har -p /test/archive -r 3 1.txt 2.txt 3.txt /test

檢視:hdfs dfs -ls -r har:///test/123.har

hdfs dfs -ls har:///test/123.har

刪除後再次archive:

hadoop archive -archivename foo.har -p /user/hadoop 1.txt 2.txt /user/zoo

hadoop archive -archivename 123.har -p /test/ 1.txt 2.txt /test/

-rw-r--r--   3 root supergroup          4 2019-05-13 01:29 har:///test/123.har/1.txt

-rw-r--r-- 3 root supergroup 4 2019-05-13 01:29 har:///test/123.har/2.txt

刪除後再次archive:

hadoop archive -archivename 123.har -p /test/ archive/1.txt archive/2.txt /test

再次檢視:hdfs dfs -ls har:///test/123.har

-rw-r--r--   3 root supergroup          4 2019-05-13 01:29 har:///test/123.har/archive/1.txt

-rw-r--r-- 3 root supergroup 4 2019-05-13 01:29 har:///test/123.har/archive/2.txt

查閱官網:

HDFS合併小檔案

眾所周知,hdfs中過多的小檔案,會給namenode造成很大的壓力,所謂的小檔案,是指遠遠小於檔案塊大小的檔案。在使用hdfs的過程中,應盡量避免生成過多的小檔案。假設存放在本地的資料由很多個小檔案組成,需要上傳到hdfs。一般的做法是在本地使用指令碼 程式先把小檔案合併後再上傳。假設本地有兩個小...

小檔案處理 HDFS

1.儲存 hdfs可以儲存小檔案,但是這個過程中,每乙個小檔案在儲存的時候都會產生一條元資料,這也就意味著如果儲存大量的小檔案,就會產生大量的元資料,則意味著記憶體會被大量占用,此時就會導致hdfs的讀寫效率整體降低 2.計算 每乙個小檔案都會看做乙個切片來進行處理,每乙個切片都會對應乙個mapta...

HDFS小檔案問題

1 概述 小檔案是指檔案size小於hdfs上block大小的檔案。這樣的檔案會給hadoop的擴充套件性和效能帶來嚴重問題。首先,在hdfs中,任何block,檔案或者目錄在記憶體中均以物件的形式儲存,每個物件約佔150byte,如果有1000 0000個小檔案,每個檔案占用乙個block,則na...