hadoop3 DistCp 並行檔案複製

2021-07-09 23:25:08 字數 537 閱讀 2560

distcp :是hadoop的乙個分布式複製程式,它能從檔案系統同將大量的檔案複製到hadoop中也能是從hadoop中複製檔案到分布式檔案系統中

例如:% hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar

將foo檔案複製到第二個bar目錄下  注意 必須是絕對的路徑

當想要在兩個同版本之間的hdif的複製的時候,這個時候使用distcp再hdfs協議上覆制會出現失敗的情況,解決的方法可以使用基於http協議的hftp的唯讀協議,從原始檔讀取資料

,這個任務必須執行在目標集群上,從而實現hdfs rpc的相容,

使用的命令:% hadoop distcp hftp://namenode1:50070/foo hdfs://namenode2/bar

也可以使用較新的 webhdfs協議來替換hftp 來實現在不同版本直接集群資料的複製

% hadoop distcp webhdfs://namenode1:50070/foo webhdfs://namenode2:50070/bar

hadoop 通過distcp進行並行複製

通過distcp進行並行複製 前面的hdfs訪問模型都集中於單執行緒的訪問。例如通過指定檔案通配,我們可以對一部分檔案進行處理,但是為了高效,對這些檔案的並行處理需要新寫乙個程式。hadoop有乙個叫distcp 分布式複製 的有用程式,能從hadoop的檔案系統並行複製大量資料。distcp一般用...

Hadoop之 通過distcp並行複製

distcp是乙個分布式複製程式,改程式可以從hadoop檔案系統間複製大量資料,也可以將大量的資料複製到hadoop中 distcp的典型應用是在兩個hdfs集群間傳輸資料 hadoop distcp hdfs binghe101 foo hdfs binghe102 bar預設情況下,distc...

HDFS並行複製Distcp

1 distcp 分布式拷貝 是用於大規模集群內部和集群之間拷貝的工具。2 distcp命令是以mr作業 沒有r任務 的形式實現的,把檔案和目錄的列表作為m任務的輸入。每乙個檔案是由乙個m任務來拷貝的,distcp盡量把大小之和相同的各個檔案匯入到同乙個m任務中。這樣可以每個m任務拷貝的資料量大致相...