hadoop集群直接資料拷貝

2021-09-01 20:42:55 字數 511 閱讀 3728

需求:

兩個hadoop集群直接進行資料的拷貝。

思路:基於org.apache.hadoop.tools.distcp,hadoop的命令列distcp就是才操作的封裝

實現:版本相同的做法:

hadoop distcp $/user/hadoop/text $/user/hadoop/text
$為hadoop的core-site.xml中對應的值:

fs.default.name

hdfs://cluster1:29000

完成命令如下:

hadoop distcp hdfs://cluster1:29000/user/hadoop/text hdfs://cluster2:29000/user/hadoop/text
也就是把cluster1的/user/hadoop/text拷貝到cluster2,如果路徑不存在的話那麼就建立

版本不同的做法待補充

Hadoop集群間資料拷貝

有時候,我們需要做hadoop集群遷移時,要把大量儲存在hadoop集群上的資料也一併遷移過去。有2種方法可以使用 1.old hadoop cluster old local disks transmission new local disks new hadoop cluster 2.old h...

Hadoop集群間資料拷貝distcp使用

distcp是hadoop集群間拷貝工具,使用mapreduce的方式,進行大資料在集群的拷貝,不同於簡單的資料copy,distcp會校驗資料,穩定傳輸,最後進行拷貝結果統計,彙總拷貝狀態,如拷貝成功的檔案數 大小等 基本命令 hadoop distcp option src dst 關於dist...

Hadoop集群間資料拷貝distcp使用

distcp是hadoop集群間拷貝工具,使用mapreduce的方式,進行大資料在集群的拷貝,不同於簡單的資料copy,distcp會校驗資料,穩定傳輸,最後進行拷貝結果統計,彙總拷貝狀態,如拷貝成功的檔案數 大小等 基本命令 hadoop distcp option src dst 關於dist...