HBase表設計的經驗分享

2021-07-24 19:59:49 字數 516 閱讀 4686

由於實際的專案應用中,有很多不同的資料集,不同的資料訪問模式和服務水平高低的不同預期。因此這些經驗只是說到一些基本規則,具體在實現要根據自己的專案的實際業務的資料訪問模式來進行調整。

主要的基本規則有:

1)regions的大小定在10~50gb;

2) cells的大小不要超過10mb,如果要儲存中型資料(超過50mb),可以選擇將資料儲存在hdfs上,然後在hbase中儲存引用指標就好;

3) 通常情況下,1個表的列族控制在1~3個,不能模仿關係型資料庫的模式;

4) 每個表的regions數量控制在50~100個。請記住region是一段連續的列族;

5) 盡量使列族的名稱簡短,因為每個值都會儲存列族名;

6) 如果儲存基於時間的資料或日誌資料,row key是基於裝置id或服務id加時間,這樣的模式可能會導致新加的資料都寫到新的region,而舊的region則不會被寫,形成寫熱點;

7) 如果只有1個列族,而且還寫得比較頻繁,那就要注意寫的負載均衡。

牛人的FPGA設計經驗分享

在ic工業中有許多不同的領域,ic設計者的特徵也會有些不同。在a領域的乙個好的ic設計者也許會花很長時間去熟悉b領域的知識。在我們職業生涯的開始,我們應該問我們自己一些問題,我們想要成為怎樣的ic設計者?消費?pc外圍?通訊?微處理器或dsp?等等?ic設計的基本規則和流程是一樣的,無論啥樣的都會加...

Hbase之表的設計

最近,由於專案的需要開始接觸hbase,發現如果想要很好的利用hbase儲存和維護利用自己的海量資料,表的設計至關重要,乙個好的表結構可以從本質上提高操作速度,直接決定了使用者的get put delete等各種操作的效率。下面我就先介紹一下hbase的基本表的構成。hbase的表是key valu...

hbase表的設計原則

1 列族的數量及列族的勢 建議將hbase列族的數量設定的越少越好.對於兩個或兩個以上的列族hbase並不能處理的很好。這是因為hbase的flushing和壓縮是基於region的。當乙個列族所儲存的資料達到flushing的閾值時,該表中所有列族將同時進行flushing操作。這將帶來不必要的i...