HBase的寫流程和讀流程

1.獲取meta表的rootregion位置資訊

在客戶端寫程序時,第一次寫時,client先通過zookeeper獲取到meta表對應的region位置資訊,然後加入到程序快取中,後續再讀寫時,直接讀取快取的meta資訊對應的region資訊就行.

2.找到資料要寫在哪個region上

根據獲取到的rootregion位置資訊,請求region所在的region server服務,根據namespace(相當於資料庫名),表名和rowkey在meta表中找到寫入資料對應的region資訊.

找到最大的小於需要找的rowkey的那個rowkey對應的region,這個region就是目標region資訊

3.發起實際的寫入請求

向region對應的region server發起寫入請求

4.wal log寫入

將插入/更新寫入wal中,當客戶端發起put/delete請求時,考慮到寫入記憶體會有丟失資料的風險,因此在寫入快取前,hbase會先寫入到wal中(wal儲存在hdfs上), 那麼即使發生宕機,也可以通過wal還原初始資料.

5.memstore寫入與storefile落地

將更新寫入memstore中,當這個記憶體達到預設的閾值,會觸發flush memstore,把memstore中的資料寫出到hdfs上,生成乙個storefile.

6.storefile合併

隨著storefile檔案的不斷增多,當增長到一定閾值後,會觸發compact合併操作,將多個storefile合併成乙個,同時會刪除舊版本.

store通過不斷的compact合併,逐步形成更大的storefile

7.region拆分

單個storefile大小超過閾值後,會觸發split操作,把當前region拆分成兩個,新拆分的2個region會被hmaster分配到相應的兩個regionserver上,有可能是當前的regionserver,也有可能是別的.

1.獲取meta表的rootregion位置資訊

2.找到資料要寫在哪個region上

根據獲取到的rootregion位置資訊,請求region所在的region server服務,根據namespace(相當於資料庫名),表名和rowkey在meta表中找到寫入資料對應的region資訊.

找到最大的小於需要找的rowkey的那個rowkey對應的region,這個region就是目標region資訊

3.發起實際的寫入請求

向region對應的region server發起讀取請求

4.先從memstore中查詢資料,如果找到則返回

5.再從blockcache查詢資料,如果找到就返回

6. 再從storefile中查詢資料,如果找到則返回,如果沒有找到則返回null,

如果是從storefile中讀取到的資料,則要寫入blockcache後再返回給客戶端