HBase的資料遷移及importTsv功能

2021-08-07 01:42:35 字數 992 閱讀 7403

1. hbase集群裝好了,若需要往表中裝資料;

2. 資料的備份,如測試集群往生產集群上遷移。

1. 使用hbase put api:例如mapreduce也是使用put api;

2. 使用hbase批量載入工具;

3.自定義的mapreduce job

這三種方式都涉及到put內建,大多數資料遷移場景都涉及到資料的匯入(import),從存在的rdbms匯入到hbase中去,大多數簡單直接的方法是直接獲取資料,使用單執行緒,這種效果非常慢,其實可以寫多執行緒完成。

importtsv是hbase官方提供的基於mapreduce的批量資料匯入工具。同時,importtsv是hbase提供的乙個命令列工具,可以將儲存在hdfs上的自定義分隔符(預設\t)的資料檔案,通過一條命令方便的匯入到hbase表中,對於大資料量匯入非常有用。

那麼,如何使用importtsv呢?

第一步,建立student.tsv檔案,如下圖:

第二步,編輯student.tsv檔案,新增以下內容,並儲存,如下圖:

第三步,建立乙個目錄,如下圖:

第四步,上傳檔案,如下圖:

第五步,建表,在hbase中建立乙個名為student的表,列簇為info。

第六步,開始執行mapreduce,命令如下:

第七步,檢視student**結果,如下圖:

通過以上步驟可以將乙個tsv檔案的資料匯入到hbase的**中。

hbase資料遷移

說明 網上眾多千篇一律的版本都說要用到乙個add table.rb的檔案,可是我的版本根本hbase下就不存在這個檔案。1.把資料表test從hbase下拷出 hadoop dfs get hbase test 2.檔案放到新集群的系統上。3.檔案拷入新的hadoop集群hbase下 hadoop ...

Hbase資料遷移

1.將hbase表資料匯出到hdfs hbase org.apache.hadoop.hbase.mapreduce.driver export tablename data export tablename 2.將hdfs資料獲取到本地 hadoop fs get data export tabl...

Hbase 資料遷移

可以使用 hadoop distcp 命令遷移,目標集群不需要建立表結構 將資料遷移到對應的表目錄下 hadoop distcp hdfs master1 8020 hbase data default tablename hdfs master2 8020 hbase data default t...