Spark實現HIVE統計結果匯入到HBase操作

2021-07-09 06:14:57 字數 473 閱讀 3453

由於hive更新的機制極其不適應spark環境,於是利用hbase來執行hive中某些統計結果的更新。首先要做的是實現spark + hive訪問,得到rdd,再將這個rdd匯入到hbase中操作。

然而網上關於這一塊目前資料還真很少。但是其原理總體上來說是非常簡單的。

步驟主要是兩步:

(1)開啟hive聯結器,實現spark + hive的訪問,得到dataframe物件。

(2)對dataframe進行rdd轉換,進行hbase的批量匯入bulkput函式來實現。

hbasecontext.bulkput[row](rddfromsql.rdd,

tablename,

(putrecord) => ,

true);

執行成功,成功匯入600w資料.

Hive實現詞頻統計

hive中提供了類似於sql語言的查詢語言 hiveql,可以通過 hiveql語句快速實現簡單的 mapreduce統計,hive 自身可以將 hiveql 語句快速轉換成 mapreduce 任務進行執行,而不必開發專門的 mapreduce 應用程式,因而十分適合資料倉儲的統計分析。通過乙個簡...

Hive實現多表級聯統計

有如下訪客訪問次數統計表 t access times 訪客月份 訪問次數 a2015 015a 2015 0115b 2015 015a 2015 018b 2015 0125a 2015 015a 2015 024a 2015 026b 2015 0210b 2015 025 需要輸出報表 t ...

Hive小練習實現單詞統計

su l hadoop 輸入密碼 vi word.txt 新建乙個word.txt文件,作為我們的資料檔案 輸入一些詞彙,以 為分隔符 hello world hello terese hello myfriend hello everyone esc wq儲存退出 hive 回到hive命令列中 ...