平台中HBase庫資料量如何統計呢？

3. hyperloglog基數統計演算法是什麼？

4. hll驗證

5. 如何應用到需求中？

這是一兩年前的任務單了，來得比較突然，就是需要知道一下目前平台中資料總量（儲存量和條數），每日新增資料量，表中字段有值率。

哇，接到這個任務，感覺儲存量直接看集群統計總容量就好，條數怎麼整？

下面我就針對hbase庫中的條數，每日新增條數，字段個數來講講我們當年走過的彎路，填過的坑。

統計每張hbase表的資料量，精確到字段級別，還有統計每日新增條數。

分析一下hbase的表，每張表有儲存週期ttl，表有不同的入庫型別，如果是全量表還好，每次直接統計，但是又有增量標識的表，此表示堆積的過程，需要統計歷史條數，再在累加新增，於此同時還需要將ttl過後的資料除去，好複雜啊~

看到這種需求，那肯定拿出hadoop最有歷史的mr來實現，然後我們乙個兄弟吭哧吭哧設計了好久，還讓其他兄弟幫他拿現場資料驗證，發現現場表太多了，預估跑2-3天都不一定跑完歷史資料，更別說新增，也別說去除ttl後的資料，者方案直接耗時1個月，寫方案到驗證，我能說簡直無法使用，並且被一通批，那兄弟實在搞不定的情況下，轉交到我手上了。

hyperloglog（下文簡稱為 hll）是 redis 2.8.9 版本新增的資料結構，它用於高效能的基數（去重）統計功能，它的缺點就是存在極低的誤差率。

。。待填充

驗證**如下：

平台中HBase庫資料量如何統計呢？

如何優化操作大資料量資料庫（幾十

ORACLE和SQL查詢庫資料量

大資料量的系統的資料庫結構如何設計？

平台中HBase庫資料量如何統計呢？

如何優化操作大資料量資料庫（幾十

ORACLE和SQL查詢庫資料量

大資料量的系統的資料庫結構如何設計？

相關推薦