distcp使用要點

2021-08-21 18:27:31 字數 281 閱讀 8302

引言:在公司資料遷移時,對distcp這個命令嘗試了n多次,總算對他的工作原理有點心得。

1、首先確保兩個集群的mapreduce計算框架沒問題

2、開通目標集群所有機器到源集群namenode節點的網路

3、版本差距不是很大時,用

sudo -u hdfs hadoop distcp -i hdfs: hdfs:

4、在ambari在的節點上使用命令,只有該節點可以免密登入其他機器

5、檔案拷貝的路徑需要寫namenode存在節點,因為只用它開啟了rpc埠

distcp使用紀要

distcp主要用於在hadoop集群之間拷貝資料。1,如果haboop版本相同,可以使用如下格式 hadoop distcp hdfs src hdfs des 2,如果在不同版本的hadoop集群之間拷貝資料,可以使用如下格式 hadoop distcp i hftp src hdfs des ...

distcp資料遷移方案

資料遷移distcp方案 根據遷移的實際情況,由於資料量大 重要 迫切性,因此實施方案每一步都需嚴謹執行,並且當出錯時清楚缺少的資料和補救的辦法。大的步驟分為3步,即export distcp import。在export匯出資料時,以時間戳作為引數,如將三個月的資料為乙個單位匯出,出錯時,重複執行...

跨集群 distcp命令

兩個集群之間做資料同步,而且兩個集群之間的版本不一致,這個時候使用的是hftp協議或者webhdfs協議!如果試圖在兩個執行著不同hdfs版本的集群上使用distcp命令來複製資料並使用hdfs協議,複製作業會失敗,因為兩個系統版本的rpc是不相容的。要想彌補這種情況,1 使用htfp協議 可以使用...