Hadoop之 通過distcp並行複製

2021-09-25 17:26:09 字數 680 閱讀 7449

distcp是乙個分布式複製程式,改程式可以從hadoop檔案系統間複製大量資料,也可以將大量的資料複製到hadoop中

distcp的典型應用是在兩個hdfs集群間傳輸資料

hadoop distcp hdfs://binghe101/foo hdfs://binghe102/bar
預設情況下, distcp會跳過目標路徑下已經存在的檔案,可以通過overwirte選項覆蓋現有檔案,也可以通過update選項選擇有改動的檔案

distcp是作為乙個mapreduce作業來實現的,通過集群中並行執行的map來完成,這裡沒有reducer.

如果試圖在兩個執行著不同hdfs版本的集群上使用distcp複製資料並使用hdfs協議,會導致複製作業失敗,因為兩個系統版本的rpc是不相容的

使用http協議複製

​ hadoop distcp http://binghe101:50070/foo hdfs://binghe102/bar
其中,namenode的web埠是由dfs.http.address屬性決定的

使用webhdfs協議

hadoop distcp webhdfs://binghe101:50070/foo webhdfs://binghe102:50070/bar

hadoop 通過distcp進行並行複製

通過distcp進行並行複製 前面的hdfs訪問模型都集中於單執行緒的訪問。例如通過指定檔案通配,我們可以對一部分檔案進行處理,但是為了高效,對這些檔案的並行處理需要新寫乙個程式。hadoop有乙個叫distcp 分布式複製 的有用程式,能從hadoop的檔案系統並行複製大量資料。distcp一般用...

Hadoop資料遷移 distcp 工具

hadoop distcp 備份hdfs檔案,並行複製大量資料。1.同版本集群之間複製 hadoop distcp hdfs namenode1 src hdfs namenode2 dist這將從第乙個集群中複製 src目錄下的內容複製到第二個集群中的 dist目錄下 預設情況下,distcp會跳...

Hadoop 之 Distcp官網介紹和注意事項

官網 distcp 分布式拷貝 是用於大規模集群內部和集群之間拷貝的工具。它使用map reduce實現檔案分發,錯誤處理和恢復,以及報告生成。它把檔案和目錄的列表作為map任務的輸入,每個任務會完成源列表中部分檔案的拷貝。由於使用了map reduce方法,這個工具在語義和執行上都會有特殊的地方。...