從OpenTsdb來分析rowkey設計

討論此問題前，先理解乙個問題。

關於hbase熱點問題

當處理由連續事件得到的資料時，即時間上連續的資料。這些資料可能來自於某個感測器網路、**交易或者乙個監控系統。它們顯著的特點就是rowkey中含有事件發生時間。帶來的乙個問題便是hbase對於row的不均衡分布，它們被儲存在乙個唯一的rowkey區間中，被稱為region，區間的範圍被稱為start key和end key。

對於單調遞增的時間型別資料，很容易被雜湊到同乙個region中，這樣它們會被儲存在同乙個伺服器上，從而所有的訪問和更新操作都會集中到這一台伺服器上，從而在集群中形成乙個hotspot，從而不能將集群的整體效能發揮出來。

要解決這個問題是非常容易的，只需要將所有的資料雜湊到全部的region上即可。這是可以做到的，比如，在rowkey前面加上乙個非執行緒序列。

opentsdb 資料庫設計

我們來看一下它的建表語句


tsdb_table=$
uid_table=$
create '$uid_table',
,create '$tsdb_table',

表 tsdb包含乙個列族「t」，tsdb-uid包含兩個列族 id和name，在hbase中列族名字越短越有利於儲存，因為它占用的位元組數越短。

tsdb 有標籤的概念:我理解為就是指標,例如mysql.bytes_sent就是乙個指標，每個指標在tsdb表中有乙個唯一的標識unique id 簡稱uid.

tsdb_uid是 tsdb 的輔助表，用於查詢uid對應的指標或者指標對應的uid

新增乙個指標，會在這個表中增加兩行記錄，一行rowkey是指標名,id是uid，另外一行rowkey是uid,name是指標名.

在tsdb_uid表中列族 id 和name 都分別包含三列

metrics 指標名或者指標uid

tagk 標籤名或者標籤名uid

tagv 標籤值或者標籤值uid

id 列族：用來將字串對映到uid

name 列族：用來將乙個uid對映到乙個字串

例如我要儲存 host=web、user=admin、project=uc 的web訪問量(web.pv)

[img]

tsdb表中其實僅用到和rowkey 列族t是沒有用到的，知識因為hbase規定必須至少有乙個列族。tsdb表的rowkey設計很值得我們去了解。

[table]

[/table]

在opentsdb中，所有資料儲存在tsdb的表中，這是為了充分利用hbase有序和region分布式的特點。所有的值都儲存在列族t中。

rowkey為[...]，

這樣設計的目的是:opentsdb以監控指標為中心的查詢進行優化，所以監控指標uid排在最前面，在同乙個監控指標中，按時間戳進行排序，行健裡時間戳儲存四捨五入到60分鐘，所以1個小時內統一監控指標的資料會儲存在一起。

opentsdb的tsdb啟動之後，會監控指定的socket埠（預設為4242），接收到監控資料，包括指標、時間戳、資料、tag標籤，tag標籤包括tag名稱id和tag值id。例如：

繼續用上面的例子

web.pv 1292148123 42 host=web user=admin project=uc

對於指標web.pv的id為：[0, 0, 1],host標籤名稱的id為：[0, 0, 2], web標籤值的id為：[0, 0, 3], 標籤名稱user的id為：[0, 0, 4] admin標籤值的id為：[0, 0, 5]，標籤名稱project的id為：[0, 0, 6] uc標籤值的id為：[0, 0, 7]，他們組成rowkey：

[color=red]

[0,0,1, 77,4,-99,32, 0,0,2, 0,0,3, 0,0,4, 0,0,5, 0,0,6, 0,0,7]

metricid timestamp tagk1 tagv1 tagk2 tagv2 tagk3 tagv3

[/color]

[b]可以看到，對於metric + tags相同的資料都會連續存放，且metic相同的資料也會連續存放，這樣對於scan以及做aggregation都非常有幫助[/b]

對於時間戳為1292148123的資料點來說，其轉換為以小時為單位的基準時間(去掉小時後的秒）為129214800,偏移為123,轉換為二進位制為1111011，因為該值為整數且長度為8位（對應為2byte，故最後3bit為100）,故其對應的列族名為：0000011110110100，將其轉換為十六進製制為07b4

[b]opentsdb兩種查詢資料下hbase表設計優勢的體現：[/b]

1：自動補全功能

[color=red]了解此功能前首先了解一下hbase 的block cache 功能[/color]

hbase上regionserver的記憶體分為兩個部分，一部分作為memstore，主要用來寫；另外一部分作為blockcache，主要用於讀。

寫請求會先寫入memstore，regionserver會給每個region提供乙個memstore，當memstore滿64mb以後，會啟動 flush重新整理到磁碟。當memstore的總大小超過限制時（heapsize * hbase.regionserver.global.memstore.upperlimit * 0.9），會強行啟動flush程序，從最大的memstore開始flush直到低於限制。

讀請求先到memstore中查資料，查不到就到blockcache中查，再查不到就會到磁碟上讀，並把讀的結果放入blockcache。由於blockcache採用的是lru策略，因此blockcache達到上限(heapsize * hfile.block.cache.size * 0.85)後，會啟動淘汰機制，淘汰掉最老的一批資料。

hbase 在每張表的rowkey上建立索引，定位起始位置會非常快，然後通過block cache 查詢資料，連續的資料例如 mysql_*** 會連續存放在一起，scan tsdb_uid 表的 name_uid對映記錄即可快速查詢。

2：讀取時間序列資料

使用一種建立在行健上的正規表示式

可以試著讀一下源**。

從OpenTsdb來分析rowkey設計

分析 OpenTSDB資料的儲存

從mykernel來分析linux系統的啟動過程

從JMM資料原子操作來分析volatile

從OpenTsdb來分析rowkey設計

分析 OpenTSDB資料的儲存

從mykernel來分析linux系統的啟動過程

從JMM資料原子操作來分析volatile

相關推薦