hadoop distcp 命令使用指導

2022-09-16 09:33:14 字數 443 閱讀 9203

1、概述

distcp(distributed copy)是一款被用於大型集群間/集群內的複製工具。

它使用mapreduce來實現其分布,錯誤處理和恢復以及報告。

它將檔案列表和目錄擴充套件為map任務的輸入,每個任務都將複製原始檔列表中指定的一些檔案的乙個分割槽。

2、基本運用

distcp最常見的呼叫是乙個集群間拷貝:

bash$ hadoop distcp hdfs://

nn1:8020/foo/bar \

hdfs://

nn2:8020/bar/foo

這會將nn1上的/ foo / bar下的命名空間擴充套件為乙個臨時檔案,將其內容在一組map任務之間進行分割槽,

並在每個nodemanager上啟動乙個從nn1到nn2的複製任務。

你也可以在命令列上指定多個源目錄:

Hadoop DistCp 分布式拷貝

在實際的生產環境中,我們的企業都有測試集群和生產集群,有的比較大型的企業有多個版本的hadoop 大資料集群,這時候有個這樣的需求,各個集群上的資源需要進行遷移,比如說一些生產集群需要一些測試集群的資料,需要將測試集群的上的資料拷貝到生產集群,這時候就需要使用到分布式拷貝 distributed c...

hadoop distcp集群之間的拷貝許可權測試

1 測試點 hadoop 集群間拷貝有沒有許可權要求 eg a集群的wkz使用者向b集群的cdd使用者拷貝檔案,會不會有許可權限制 2 開始測試 1 搭建兩套cm a,b,並分配yarn和hdfs 2 在a集群hdfs建立建wkz目錄並賦權,在a集群hdfs getway節點建立wkz使用者,並用w...

scaffold dbcontext 命令使用說明

工具的scaffold dbcontext 資料庫上下文腳手架 指令來生成models和context。指令詳細介紹 scaffold dbcontext connection provider outputdir context schemas tables dataannotations for...