Hive 之即席查詢引擎選型考量

為什麼需要使用到即席查詢的資料表，這個取決於數倉的上層應用於數倉的規模，通常如果需要給hive的上層服務提供快速響應，那麼即席查詢是必不可少的數倉元件，常見的即席查詢元件有以下。

對比點duird

kylin

presto

impala

sparksql

es亞秒級響應yy

nnnn

百億級資料集yy

yyyy

sql支援

n(ing)yy

ynn離線

yyyy

yy實時y

n(ing)nn

ny精確去重ny

yynn

多表joinny

yynn

jdbc for bi report支援ny

yynn

1、druid：是乙個實時處理時序資料的olap資料庫，因為索引首先按照時間分片，查詢的時候也是按照時間路線去路由索引。

2、kylin：核心是cube，cube是一種預計算技術，基本思路是預先對資料作多維的索引，查詢時只掃瞄索引而不訪問原始資料從而提速。

3、presto：它沒有使用mr，大部分場景下比hive快乙個量級，其中的關鍵是所有的處理都在記憶體中完成，支。

4、impala：基於記憶體運算，速度快，支援的資料來源沒有presto多。

5、sparksql：基於spark平台的olap框架，基本思路是增加機器平行計算，從而提高查詢速度。

6、es：使用分詞和倒排索引實現快速查詢，es在資源獲取和聚集用的資源比druid高。

druid > kylin > presto > sparksql

presto > sparksql > kylin > druid

資料倉儲之Hive技術框架選型

1.1 資料儲存行儲存基於 hadoop 系統行儲存結構的優點在於快速資料載入和動態負載的高適應能力，但是行儲存不支援快速查詢，當查詢僅僅針對多列表中的少數幾列時，它不能跳過不必要的列讀取。同時，由於行儲存混合著不同資料值的列，行儲存不容易獲得乙個極高的壓縮比，即空間利用率不易大幅提高，儘管通過...

Hive查詢之Join語句

hive支援通常的sql join語句，但是只支援等值連線，不支援非等值連線。案例實操 1 根據員工表和部門表中的部門編號相等，查詢員工編號員工名稱和部門名稱 hive default select e.empno,e.ename,d.deptno,d.dname from emp e join ...

Hive之資料查詢

發布於 2013 年 10 月 11 日由 aaron 發布於 hive 一，排序和聚合對於排序有兩種方式，一種是order by 一種是sort by order by 會對所有的資料進行排序，所以最後會只有乙個reducer來處理，如果資料量非常大，效率會非常差勁 sort by是部分排序，...

Hive 之即席查詢引擎選型考量

資料倉儲之Hive技術框架選型

Hive查詢之Join語句

Hive之資料查詢

相關推薦