大資料學習筆記 HBase資料模型及架構簡介

2021-09-13 14:18:43 字數 1002 閱讀 7626

1、hbase簡介

hadoop

database,是乙個高可靠性、高效能、面向列、可伸縮、實時讀寫的分布式

資料庫; 利用

hadoop

hdfs作為其檔案儲存系統,利用hadoop

mapreduce來處理hbase中的海量資料,利用zookeeper作為其分布式協同服務; 主要

用來儲存非結構化和半結構化的鬆散資料(列存

nosql

資料庫);

2、hbase資料模型

rowkey

timestamp

cf1cf2

cf300001

t5cf2:q2=val2

cf3:q3=val4

t3cf3:q3=val3

t1cf1:q1=val1

2.1 rowkey

2.2 column family - cf - 列族 及 qualifier - 列

2.3 timestamp - 時間戳

2.4 cell - 單元格

2.5 hlog - wal log

3、hbase架構

hregion是hbase中分布式儲存和負載均衡的最小單元。最小單元就表示不同的hregion可以分布在不同的

hregion

server上。

hregion由乙個或者多個store組成,每個store儲存乙個columns

family。

3.6memstore

與storefile

每個strore由乙個memstore和0至多個storefile組成,storefile以hfile格式儲存在hdfs上。

大資料元件 HBASE

1 hbase是乙個非關係型分布式資料庫 nosql bigtable 參考的是谷歌 2 高可靠 採用主從架構,使用zookeeper管理 高效能 分布式並行處理 面向列 可伸縮 可新增子節點 3 採用hdfs作為檔案儲存系統 也可以採用其它的檔案儲存系統,沒整合mr計算的功能 4 hbase擅長查...

大資料儲存HBase

這兩天要寫乙個方案,某單位想建乙個中心資料庫,匯聚各業務系統資料,以及各種網上抓取的預報資料。我設想是用hbase。主要考慮點是 1 開源 2 支援海量資料 該單位的資料量增長按規劃還是很大的,大約每天20gb 關係型資料庫就不考慮了。rdbms本質上是單機系統,拿mysql來說吧,主從複製,讀寫分...

大資料學習筆記

大資料處理是雲計算中非常重要的領域,自google公司提出mapreduce分布式處理框架以來,以hadoop為代表的開源軟體受到越來越多公司的重視和青睞。本文將講述hadoop系統中的乙個新成員 impala。impala架構分析 impala是cloudera公司主導開發的新型查詢系統,它提供s...