Hbase非關係型資料庫簡介

hbase-hadoop database，是乙個高可靠性、高效能、面向列、可伸縮、實時讀寫的分布式資料庫。

hadoop生態圈中，它是其中一部分且利用hadoop hdfs作為其檔案儲存系統,利用hadoop mapreduce來處理hbase中的海量資料,利用zookeeper作為其分布式協同服務,主要用來儲存非結構化和半結構化的鬆散資料（nosql非關係型資料庫有redis、mongodb等）。

關係型資料庫的3大優點：

容易理解：二維表結構是非常貼近邏輯世界的乙個概念，關係模型相對網狀、層次等其他模型來說更容易理解

使用方便：通用的sql語言使得操作關係型資料庫非常方便

易於維護：豐富的完整性(實體完整性、參照完整性和使用者定義的完整性)大大減低了資料冗餘和資料不一致的概率

關係型資料庫的3大瓶頸：

高併發讀寫需求：**的使用者併發性非常高，往往達到每秒上萬次讀寫請求，對於傳統關係型資料庫來說，硬碟i/o是乙個很大的瓶頸，並且很難能做到資料的強一致性。

海量資料的讀寫效能低：**每天產生的資料量是巨大的，對於關係型資料庫來說，在一張包含海量資料的表中查詢，效率是非常低的。

非關係型資料庫特點：

client：包含訪問hbase的介面並維護cache來加快對hbase的訪問。

hmaster：與regionserver為一主多從架構，存在單點故障問題，一般設定多個hmaster，由zookeeper提供協同服務。hmaster負責為regionserver的負載均衡，管理使用者對錶的增刪改操作，發現失效的regionserver並重新分配其上的region。

zookeeper：儲存hbase資料庫中表的元資料資訊metadata，為hmaster提供協同服務，儲存所有region的定址入口資訊，hbase高度依賴zk。

regionserver：負責維護region，處理對region的i/o請求。負責對過大region的切分。

hlog：在regionserver中，儲存表的元資料metadata與實際資料data，資料先儲存在hlog後儲存進region。

region：儲存在regionserver中，表被劃分為多個區域，儲存在不同的region中，region超過一定大小就會裂變。

store：乙個region由多個store組成，乙個store對應乙個列族，包括memstore和storefile。memstore在記憶體中，storefile在磁碟中。資料先寫入memstore，達到某個閾值後落地到storefile。

當region中所有的storefile大小之和過大，超過一定的閾值，就會發生裂變。

一張表可能很大，在表增大的過程中，儲存表的region會裂變成2個，當table中的行不斷增多，就會有越來越多的region，乙個regionserver有過多的region後，下一次裂變時master會將**後的region放到不同的regionserver上儲存，實現負載均衡。

hbase表的元資料metadata儲存在zookeeper中，而zookeeper還負責master的協同服務以及region入口位址的儲存，如果zookeeper出現問題，hbase將無法正常工作。