hadoop間資料遷移

2021-09-24 04:55:42 字數 903 閱讀 1208

具體操作:使用distcp命令跨hdfs遷移資料(在

hadoop

版本不一致時,

distcp

命令也不一樣)

使用詳情參看官網:

distcp有多中資料複製模式:hdfs,http,hftp

(目標端hadoop需要賦予外來使用者對資料夾寫入的許可權,hadoop fs -chmod 755 ***x)

<1>.同版本hadoop下資料遷移使用hdfs模式:

hadoop distcp  hdfs:    hdfs://hadoop11:9000/elasticsearch1(保證寫入許可權)

其中192.168.132.12是源集群的namenode位址, 9000是源集群的rpc埠(hdfs-site.xml中可檢視,2.7.1預設是9000)。

hadoop distcp  hdfs:    hdfs://hadoop12:9000/elasticsearch1(保證寫入許可權)

<2>.不同版本hadoop下資料遷移:

2.x -->2.x:    使用hftp模式

hadoop distcp  h    hdfs://hadoop11:9000/tool (保證寫入許可權)

命令類似hdfs模式,目標集群的開頭要用hftp, 而且埠要變為http埠(hdfs-site.xml中可檢視,如果未配置,則需要配置,2.7.1預設是50070)

hftp是乙個唯讀檔案系統,所以distcp必須執行在目標端集群上。 源的格式是 hftp:///

2.x -->3.x:  3.x棄用hftp,支援hdfs傳資料

hadoop distcp  hdfs:    hdfs:保證寫入許可權)

hadoop 資料遷移

distcp 分布式拷貝 是用於大規模集群內部和集群之間拷貝的工具。它使用map reduce實現檔案分發,錯誤處理和恢復,以及報告生成。它把檔案和目錄的列表作為map任務的輸入,每個任務會完成源列表中部分檔案的拷貝。由於使用了map reduce方法,這個工具在語義和執行上都會有特殊的地方。這篇文...

Elasticsearch集群間資料遷移

一 情況說明 將原來elasticsearch 6.4.2集群的資料遷移至現在的elasticsearch 7.2.0集群,遷移資料量大小在200g資料左右。二 遷移方案 1 使用elasticdump elasticdump是實現不同elasticsearch集群之間索引遷移的工具,基於npm包安...

Hadoop集群間資料拷貝

有時候,我們需要做hadoop集群遷移時,要把大量儲存在hadoop集群上的資料也一併遷移過去。有2種方法可以使用 1.old hadoop cluster old local disks transmission new local disks new hadoop cluster 2.old h...