資料倉儲之Hive技術框架選型

1.1 資料儲存

① 行儲存

基於 hadoop 系統行儲存結構的優點在於快速資料載入和動態負載的高適應能力，但是行儲存不支援快速查詢，當查詢僅僅針對多列表中的少數幾列時，它不能跳過不必要的列讀取。同時，由於行儲存混合著不同資料值的列，行儲存不容易獲得乙個極高的壓縮比，即空間利用率不易大幅提高，儘管通過熵編碼和利用列相關性能夠獲得乙個較好的壓縮比，但是複雜資料儲存實現會導致解壓開銷增大。

② 列儲存

列儲存在查詢時列儲存能夠避免讀不必要的列，並且壓縮乙個列中的相似資料能夠達到較高的壓縮比。

③ 儲存方式的選擇

在資料倉儲的搭建中，我們選擇列儲存方式。

對於列式儲存正規化，有三種儲存格式可以選擇：rcfile，orc，parquet。

若論對 hive（以 mapreduce 為執行引擎）的支援 orc 是最好的，但是若論對 spark 等 hadoop 生態圈中更多的技術框架，parquet 的支援是最好的，而 spark 作為 hive 的執行引擎時效能非常好，因以我們這裡毫無疑問地選擇了 parquet。

1.2 資料壓縮

hive 中可用的壓縮格式如下表所示：

壓縮格式

工具演算法

檔案拓展名

是否可切分

default

無default

.delate

否gzip

gzip

default

.gz否

bzip2

.bz2

是lzo

lzop

lzo.lzo是無

否 1.3 執行引擎

資料倉儲之Hive技術框架選型

Hive 資料倉儲

資料倉儲Hive

資料倉儲Hive

資料倉儲之Hive技術框架選型

Hive 資料倉儲

資料倉儲Hive

資料倉儲Hive

相關推薦