hadoop 不同集群之間資料拷貝

2021-10-01 12:37:07 字數 781 閱讀 2168

hadoop不同集群之間資料拷貝,拷貝時兩個集群要用active namenode去拷貝,datanode是不具備拷貝功能的,所以當我們把資料拿到hdfs路徑上時,

要去判斷當前集群哪個主節點是active的,所以大致步驟為

資料落到hdfs上

beeline -u jdbc:hive2: -e 「insert overwrite directory 『/tmp/export/loan_table』 row format delimited fields terminated by 『\001』 select * from ln.loan_table」

判斷namenode狀態

hdfs haadmin -getservicestate nn1

拷貝

hadoop distcp -update -skipcrccheck hdfs: hdfs:

這樣後資料就會落到目標集群的/tmp/export/loan_table

建指定位置的text表

create table ln.loan_table location 『/tmp/export/loan_table』 as select * from ln.loan_table where 1=2 ;

這一步的操作是按照ln.loan_table 表結構拷貝乙份表結構相同的表,但是資料不會拷貝過來,這樣建完表之後資料就會在表中查到。

Hadoop集群間資料拷貝

有時候,我們需要做hadoop集群遷移時,要把大量儲存在hadoop集群上的資料也一併遷移過去。有2種方法可以使用 1.old hadoop cluster old local disks transmission new local disks new hadoop cluster 2.old h...

集群之間資料的遷移

場景 舊集群的資料要遷移到新集群上面 hadoop distcp option hdfs master ip 8020 hive warehouse db tab name hdfs master ip 8020 hive warehouse db tab name option的內容可以hadoo...

Hadoop集群間資料拷貝distcp使用

distcp是hadoop集群間拷貝工具,使用mapreduce的方式,進行大資料在集群的拷貝,不同於簡單的資料copy,distcp會校驗資料,穩定傳輸,最後進行拷貝結果統計,彙總拷貝狀態,如拷貝成功的檔案數 大小等 基本命令 hadoop distcp option src dst 關於dist...