Hbase(11)bulkLoad批量匯入資料

2021-10-23 13:39:40 字數 725 閱讀 7233

bulkload的原理是用mr程式讀取檔案資料,生成hfile檔案,直接放到hdfs指定目錄中去。

importtsv是hbase自帶的乙個 csv檔案–》hfile檔案 的工具,它能將csv檔案轉成hfile檔案,並傳送給regionserver

它的本質,是內建的乙個將csv檔案轉成hfile檔案的mr程式!

1資料檔案

uid001,lss,32,f

uid002,zss,32,f

uid003,wss,32,f

uid004,dss,32,f

2.在hbase中建立乙個表

create 「tb_teacher」,「cf」

3.將user.csv檔案上傳到linux系統的某個目錄中

4.生成hfile檔案

hbase org.apache.hadoop.hbase.mapreduce.importtsv -dimporttsv.separator=,

-dimporttsv.columns=『hbase_row_key,cf:name,cf:age,cf:gender』

-dimporttsv.bulk.output=/csv/out tb_teacher /csv/user.csv

5.將hfile檔案匯入到hbase表中:

hbase org.apache.hadoop.hbase.mapreduce.loadincrementalhfiles /csv/out tb_teacher

BulkLoad 載入資料到HBase

hbase支援bulk load 的入庫方式,他是利用hbase 的資料資訊按照特定格式儲存在hdfs內這一原理,直接在hdfs中生成持久化的gfile資料格式的檔案,然後上傳到合適的位置,即完成巨量資料快速入庫的方法。配合mapreduce完成,高效便捷而且不占用region資源,增添負載,在大資...

hbase實戰 (1 1 nosql介紹)

nosql nosql not only sql 意思是不僅僅是sql的擴充套件,一般指的是非關係型的資料庫。隨著網際網路web2.0 的興起,傳統的關聯式資料庫在應付web2.0 特別是超大規模和高併發的sns型別的web2.0純動態 已經顯得力不從心,傳統的電信行業動輟就千萬甚至上億的資料,甚至...

hbase實戰 (1 1 nosql介紹)

nosql nosql not only sql 意思是不僅僅是sql的擴充套件,一般指的是非關係型的資料庫。隨著網際網路web2.0 的興起,傳統的關聯式資料庫在應付web2.0 特別是超大規模和高併發的sns型別的web2.0純動態 已經顯得力不從心,傳統的電信行業動輟就千萬甚至上億的資料,甚至...