HBase基本知識介紹及典型案例分析

2021-09-19 21:20:55 字數 1210 閱讀 5623

hbase讀寫流程;

rowkey設計要點;

hbase生態介紹;

hbase典型案例分析。

column family:列族,將表進行橫向切割,後面簡稱cf;

column:屬於某乙個列族,可動態新增列;

version number:型別為long,預設值是系統時間戳,可由使用者自定義;

value:真實的資料。

regionserver:用於存放region的服務。

每次put,delete都會產生乙個新的cell,都擁有乙個版本;

預設只存放資料的三個版本,可以配置;

查詢預設返回最新版本的資料,可以通過制定版本號或版本數獲取舊資料。

wal 存放在hdfs之上;

每次put、delete操作的資料均追加到wal末端;

持久化到wal之後,再寫到memstore中;

兩者寫完返回ack到客戶端。

memstore使用達到上限;

regionserver的hlog數量達到上限;

手動觸發;

關閉regionserver觸發。

刪除那些被標記為刪除的資料、超過ttl(time-to-live)時限的資料,以及超過了版本數量限制的資料。

memstore 中的資料按rowkey字典順序排序

hfile中的資料按rowkey字典順序排序

spark:我們可以使用 spark 進行 olap 分析;也可以使用 spark sql 來滿足比較複雜的 sql 查詢場景;使用 spark streaming 來進行實時流分析。

solr:原生的 hbase 只提供了 rowkey 單主鍵,如果我們需要對 rowkey 之外的列進行查詢,這時候就會有問題。幸好我們可以使用 solr 來建立二級索引/全文索引充分滿足我們的查詢需求。

hgraphdb:hgraphdb是分布式圖資料庫。依託圖關聯技術,幫助金融機構有效識別隱藏在網路中的黑色資訊,在團夥欺詐、黑中介識別等。

geomesa:目前基於nosql資料庫的時空資料引擎中功能最豐富、社群貢獻人數最多的開源系統。

opentsdb:基於hbase的分布式的,可伸縮的時間序列資料庫。適合做監控系統;譬如收集大規模集群(包括網路裝置、作業系統、應用程式)的監控資料並進行儲存,查詢。

redis基本知識介紹

redis相對memcache來說,支援了更多的資料型別,在使用場景上面無疑是更加的便捷 string 可以儲存任何形式的字串,內部實現結構有int,sds dynamisc string 當值為整型時,使用int結構存放,非整型時使用sds儲存 list 當list的節點小於配置 hash max...

Zookeeper基本知識介紹

1 什麼是zookeeper zookeeper是乙個分布式開源框架,提供了協調分布式應用的基本服務,它向外部應用暴露一組通用服務 分布式同步 distributed synchronization 命名服務 naming service 集群維護 group maintenance 等,簡化分布式...

執行緒程式設計基本知識介紹

執行緒程式設計基本知識介紹 執行緒程式設計基本知識介紹,常用執行緒函式列舉 與執行緒相關的函式可以分類歸結為以下幾個部分 1 執行緒管理函式,包括執行緒的建立,退出,函式為 pthread create,pthread join,pthread exit,pthread self,pthread c...