Hbase資料匯入和實現 Web 日誌場景資料處理

2021-10-02 07:14:16 字數 1451 閱讀 5376

1.hbase資料匯入語句

$ hbase org.apache.hadoop.hbase.mapreduce.importtsv -dimporttsv.separator="分隔符" -dimporttsv.columns=hbase_row_key,列族名稱:列名,列族名稱:列名,列族名稱:列名,列族名稱:列名,列族名稱:列名,列族名稱:列名 表明 待匯入檔案的 hdfs 路徑
3.通過 singlecolumnvaluefilter 來對單個列的值進行限定,在 hbase shell 中的使用方法如下:

scan '表名', filter=>"singlecolumnvaluefilter('列族名稱','列名',判斷條件,'binary:匹配值')"
$ su hadoop

$ cd ~

$ wget

$ hdfs namenode -format(格式化語句,第一次才需要)

$ start-dfs.sh

$ start-yarn.sh

$ hdfs dfs -mkdir -p /user/hadoop/(之前建立過,這次不需要)

$ hdfs dfs -put /home/hadoop/log.csv /user/hadoop/log.csv

$ start-hbase.sh

$ hbase shell

hbase(main):001:0> create 'access_log', 'cf1', 'cf2'

開啟新的終端

$ su -l hadoop

$ hbase org.apache.hadoop.hbase.mapreduce.importtsv -dimporttsv.separator="," -dimporttsv.columns=hbase_row_key,cf1:date,cf1:id,cf2:url,cf2:pre_url,cf2:ip,cf2:country access_log /user/hadoop/log.csv

切換到 hbase shell 中執行:

$ hbase shell

hbase(main):002:0> scan 'access_log', filter=>"singlecolumnvaluefilter('cf2','country',=,'binary:ca')"

hbase(main):003:0> exit

在終端執行:

$ echo 1037 > /home/hadoop/log_analysis_result
log_analysis_result的結果是103

hbase資料匯入

使用命令bin hbase org.apache.hadoop.hbase.mapreduce.importtsv dimporttsv.columns hbase row key,cf a,cf b,cf c 需要指出的是原始檔預設以 為分割符,如果需要換成其它分割符,在執行時加上 dimport...

HBase 資料匯入

記錄一下hbase 0.96.0 利用importtsv,completebulkload 和import匯入資料的方法。我的環境裡用的是yarn。1 利用importtsv 將cvs檔案匯入到hbase 步驟 a.在hbase裡面建立好table 命令 create hbase tbl 001 c...

HBase資料的匯入和匯出

1 hbase本身提供的介面 其呼叫形式為 1 匯入 首先進入hbase根目錄,然後輸入下面的命令 bin hbase org.apache.hadoop.hbase.mapreduce.driver import 表名 資料檔案位置 例如 bin hbase org.apache.hadoop.h...