大資料儲存框架之HBase 2 解壓縮

2021-10-01 10:16:21 字數 1114 閱讀 8627

以下資料是google在2023年發布的乙個測試資料。

algorithm

% remaining

encoding

decoding

gzip

13.4%

21 mb/s

118 mb/s

lzo20.5%

135 mb/s

410 mb/s

22.2%

172 mb/s

409 mb/s

資料**hbase: the definitive guide

1)gzip的壓縮率最高,但是其實cpu密集型的,對cpu的消耗比其他演算法要多,壓縮和解壓速度也慢;

2)lzo的壓縮率居中,比gzip要低一些,但是壓縮和解壓速度明顯要比gzip快很多,其中解壓速度快的更多;

下面是阿里云云資料庫hbase版中關於幾個壓縮演算法的開發指南。

業務型別

無壓縮表大小

lzo(壓縮率/解壓速度mb/s)

zstd(壓縮率/解壓速度mb/s)

lz4(壓縮率/解壓速度mb/s)

監控類419.75t

5.82/372

13.09/256

5.19/463.8

日誌類77.26t

4.11/333

6.0/287

4.16/496.1

風控類147.83t

4.29/297.7

5.93/270

4.19/441.38

消費記錄

108.04t

5.93/316.8

10.51/288.3

5.55/520.3

create

'test'

,

disable

'test'

;alter

'test'

, name =

>

'info'

, compression =

>

'lzo'

enable

'test'

major_compact 'test'

大資料儲存HBase

這兩天要寫乙個方案,某單位想建乙個中心資料庫,匯聚各業務系統資料,以及各種網上抓取的預報資料。我設想是用hbase。主要考慮點是 1 開源 2 支援海量資料 該單位的資料量增長按規劃還是很大的,大約每天20gb 關係型資料庫就不考慮了。rdbms本質上是單機系統,拿mysql來說吧,主從複製,讀寫分...

大資料HBase系列之HBase基本操作

hbase version hbase zkcli hbase shell 2.1 建立表 語法 create 表名 列族名 create student info 2.2 顯示所有表 語法 list 或 list 表名 list student 2.3 顯示表描述 語法 describe 表名 d...

大資料框架基礎HBase計數和截斷

可以使用count命令計算表的行數量。它的語法如下 count 刪除第一行後,表emp就只有兩行。驗證它,如下圖所示。hbase main 023 0 count emp 2 row s in 0.090 seconds 2此命令將禁止刪除並重新建立乙個表。truncate 的語法如下 hbase ...