《HBase管理指南》一1 1 簡介

2021-09-23 16:50:01 字數 1237 閱讀 2222

本章將介紹hbase集群的安裝方法,首先將介紹基本的單機執行模式的hbase例項的安裝方法,然後介紹如何在amazon ec2上安裝完全分布式執行的高可靠性hbase集群。

根據apache hbase主頁上的定義:

hbase是hadoop上的資料庫。它適合在需要對大資料進行隨機且實時讀寫的情況下使用。其目標是在基於商品化硬體構建的集群之上儲存那些非常大的表——比如那些有數百萬個欄位和數十億條記錄的大表。

hbase可以在任何檔案系統上執行。比如說,無論是在ext4本地檔案系統、amazon s3(amazon ****** storage service),還是hadoop分布式檔案系統(hdfs)上,都可以執行hbase。 hdfs是hadoop首選的分布式檔案系統,因此大多數完全分布式的hbase集群都執行在hdfs檔案系統上,所以我們將首先介紹一下如何安裝hadoop。

apache zookeeper是乙個開源軟體,它能夠提供一種具有高可靠性的分布式的協調服務。分布式的hbase需要執行乙個zookeeper集群。

作為一種執行在hadoop上的資料庫,hbase需要同時開啟很多個檔案。 為了使hbase能夠順暢執行,我們需要修改一些linux核心引數的設定。

乙個完全分布式的hbase集群都有乙個或多個主節點(hmaster)和許多從節點(regionserver),其中主節點用於協調整個集群,從節點用於處理實際的資料儲存和要求。圖1-1顯示的是乙個典型的hbase集群結構。

hbase可以同時執行多個主節點,它會使用zookeeper來監控這些主節點和實現這些主節點之間的故障轉移。不過,由於hbase在底層使用了hdfs來作為它的檔案系統,所以如果hdfs宕機了,hbase也自然要死機。hdfs的主節點(我們稱之為namenode)是hdfs的單點故障(spof,single point of failure),因此也是hbase集群的單一故障點。幸運的是,namenode在軟體方面非常健壯和穩定。此外,hdfs的研發團隊也正在努力開發具有真正高可靠性的namenode,hadoop的下乙個主要發布版本可能就會包含這一特性。

在1.2~1.8節中,我們將介紹如何讓hbase與它所需要使用的那些軟體一起工作,構建起乙個完全分布式的hbase集群。最後一節將介紹乙個較為高階的話題——如何避免集群的單點故障問題。

下面,我們就開始介紹如何安裝乙個單機執行的hbase例項,之後再來演示如何在amazon ec2上安裝乙個分布式的hbase集群。

HBase學習筆記(一) 《HBase簡介》

hbase簡介 1 hbase表的結構 hbase以表 table 的形式儲存資料 row key 行鍵 與nosql資料庫們一樣,row key是用來檢索記錄的主鍵。row key行鍵 row key 可以是任意字串 最大長度是 64kb,實際應用中長度一般為 10 100bytes 在hbase...

《HBase權威指南》一導讀

hbase權威指南 你閱讀本書的理由可能有很多。可能是因為聽說了hadoop,並了解到它能夠在合理的時間範圍內處理pb級的資料,在研讀hadoop的過程中發現了乙個處理隨機讀寫的系統,它叫做hbase。或者將其稱為目前流行的一種新的資料儲存架構,傳統資料庫解決大資料問題時成本更高,更適合的技術範圍是...

《HBase管理指南》一1 6 修改核心引數設定

hbase是執行在hadoop上的資料庫,和其他資料庫一樣,它也要同時開啟很多個檔案。linux對於乙個程序可開啟檔案描述符的個數有所限制。預設的限制是每個程序可開啟1024個檔案。為了使hbase能夠順暢執行,你需要調高啟動hbase的那個使用者允許開啟的檔案描述符的最大個數。在本書中,就是had...