使用importTsv完成HBase 的資料遷移

2021-08-19 20:41:18 字數 847 閱讀 6058

使用hbase put api:例如mapreduce也是使用put api

使用hbase批量載入工具

自定義的mapreduce job

這三種方式都涉及到put內建,大多數資料遷移場景都涉及到資料的匯入(import),從存在的rdbms匯入到hbase中去,大多數簡單直接的方法是直接獲取資料,使用單執行緒,這種效果非常慢,其實可以寫多執行緒完成。

同時importtsv是hbase提供的乙個命令列工具,可以將儲存在hdfs上的自定義分隔符(預設\t)的資料檔案,通過一條命令方便的匯入到hbase表中,對於大資料量匯入非常實用

以下將介紹如何使用importtsv.

通過以下步驟可以將乙個tsv檔案的資料匯入到hbase的**中

export hbase_home=/opt/sofewares

/hbase/hbase-0.98.6-hadoop2

export hadoop_home=/opt/cdh5.3.6/hadoop-2.5.0-cdh5.3.6

hadoop_classpath=`$/bin/hbase mapredcp` $/bin/hadoop jar

$hbase_home/lib/hbase-server-0.98.6-hadoop2.jar importtsv \

-dimporttsv.columns=hbase_row_key,info:name,info:age,info:***,info:address,info:phone student hdfs:

/beifeng/hbase

/importtsv

importtsv工具匯入文字檔案到Hbase

importtsv是從tsv檔案直接載入內容到hbase的乙個hbase內建工具,通過執行mr job,將資料從tsv檔案直接寫入hbase的表或寫入乙個hbase的自由格式資料檔案 hfile 使用awk工具對原始檔案作處理,新增rowkey欄位。將第乙個欄位和第二個字段拼接作為rowkey。命令...

使用importtsv命令載入資料

原文 bulkload是向hbase批量載入資料的方式,它會直接將資料進行準備和並載入成hfile,並直接講檔案插入到regionserver中,這比通過乙個mapreduce spark作業來載入效能高得多。詳細的流程如下 1.抽取資料並形成固定格式的檔案,比如csv。2.將資料轉換稱為hfile...

使用DataX從CSV中讀取檔案存入HBase

參考文件 csv檔案格式 csv檔案提取碼 esuw json檔案內容 job content fielddelimiter writer table test mode normal nullmode empty rowkeycolumn column versioncolumn encoding...