大資料常見面試題之HBase

2021-10-23 17:46:50 字數 2244 閱讀 8005

三.hbase的優化

四.hbase讀寫流程

五.rowkey如何設計避免熱點問題

六.hbase的最小儲存單位

七.hbase如何進行預分割槽以及作用

八.hbase中的hfile什麼時候需要合併成大檔案,什麼時候拆分成小檔案

九.為什麼hbase查詢比較快

1.表設計

2.寫表

3.讀表

hbase 寫流程如圖所示:

寫資料這一塊也可以看出,hbase將資料寫入到記憶體中後,就返回給客戶端寫入成功,響應非常快。這也是為什麼hbase寫資料速度快的原因。

#以下是shell方式

#指明分割點

create 't1','f1',splits=

>

['10','20','30','40'

]#hexstringsplit指明分割策略,-c 10 指明要分割的區域數量,-f指明表中的列族,用":"分割

hbase org.apache.hadoop.hbase.util.regionspliter test_table hexstringsplit -c 10 -f f1

#根據檔案建立分割槽並壓縮

create 'split_table_test',,

1.hfile合併2.compaction執行時間3.compaction相關控制引數

屬性值預設值

含義hbase.hstore.compaction.max

10表示一次minor compaction中最多選取10個store file

hbase.hstore.compaction.min

3表示至少需要三個滿足條件的store file時,minor compaction才會啟動

hbase.hstore.compaction.min.size

表示檔案大小小於該值的store file 一定會加入到minor compaction的store file中

hbase.hstore.compaction.max.size

表示檔案大於該值的store file一定會被排除

hbase.hstore.compaction.ratio

1.2將store file 按照檔案年齡排序(order to younger) ,minor compaction總是從old store 開始選擇

#compact all region in a table:

hbase> major_compact't1'

hbase> major_compact'ns1:t1'

#compact an entire region:

hbase> major_compcat'r1'

#compact a single column family within a region:

hbase> major_compact'r1','c1'

#compact a single column family within a table:

hbase> major_compact't1','c1'

1)constantsizeregionsplitpolicy(了解內容)hbase.hregion.max.filesize

region的最大大小。預設是10gb

2)increasingtoupperboundregionsplitpolicy (0.94版本後預設)

3)keyprefixregionsplitpolicy(擴充套件內容)

keyprefixregionsplitpolicy.prefix_length

rowkey的字首長度

4)delimitedkeyprefixregionsplitpolicy(擴充套件內容)

5)busyregionsplitpolicy(擴充套件內容)

6)disableregionsplitpolicy

Hbase 常見面試題

hbase乙個分布式的基於列式儲存的資料庫,基於hadoop的 hdfs 儲存,zookeeper 進行管理。hbase適合儲存半結構化或非結構化資料,對於資料結構字段不夠確定或者雜亂無章很難按乙個概念去抽取的資料。hbase 為 null 的記錄不會被儲存。基於的表包含 rowkey,時間戳,和列...

大資料常見面試題之spark core

二.driver的功能 三.hadoop和spark都是平行計算,他們有什麼相同點和不同點 四.rdd 五.簡述寬依賴和窄依賴概念,groupbykey,reducebykey,map,filter,union都是什麼依賴?六.spark如何防止記憶體溢位 七.stage task 和 job的區別...

大資料常見面試題之kafka

四.kafka到sparkstreaming怎麼保證資料完整性,怎麼保證資料不重複消費?五.kafka的消費者高階和低階api區別 六.kafka怎麼保證資料消費一次且僅消費一次 七.kafka保證資料一致性和可靠性 八.spark實時作業宕掉,kafka指定的topic資料堆積怎麼辦 九.kafk...