Hive 之即席查詢引擎選型考量

2021-10-22 07:16:46 字數 849 閱讀 2780

為什麼需要使用到即席查詢的資料表,這個取決於數倉的上層應用於數倉的規模,通常如果需要給hive的上層服務提供快速響應,那麼即席查詢是必不可少的數倉元件,常見的即席查詢元件有以下。

對比點duird

kylin

presto

impala

sparksql

es亞秒級響應yy

nnnn

百億級資料集yy

yyyy

sql支援

n(ing)yy

ynn離線

yyyy

yy實時y

n(ing)nn

ny精確去重ny

yynn

多表joinny

yynn

jdbc for bi report支援ny

yynn

1、druid:是乙個實時處理時序資料的olap資料庫,因為索引首先按照時間分片,查詢的時候也是按照時間路線去路由索引。

2、kylin:核心是cube,cube是一種預計算技術,基本思路是預先對資料作多維的索引,查詢時只掃瞄索引而不訪問原始資料從而提速。

3、presto:它沒有使用mr,大部分場景下比hive快乙個量級,其中的關鍵是所有的處理都在記憶體中完成,支。

4、impala:基於記憶體運算,速度快,支援的資料來源沒有presto多。

5、sparksql:基於spark平台的olap框架,基本思路是增加機器平行計算,從而提高查詢速度。

6、es:使用分詞和倒排索引實現快速查詢,es在資源獲取和聚集用的資源比druid高。

druid > kylin > presto > sparksql

presto > sparksql > kylin > druid

資料倉儲之Hive技術框架選型

1.1 資料儲存 行儲存 基於 hadoop 系統行儲存結構的優點在於快速資料載入和動態負載的高適應能力,但是行儲存不支援快速查詢,當查詢僅僅針對多列表中的少數幾列時,它不能跳過不必要的列讀取。同時,由於行儲存混合著不同資料值的列,行儲存不容易獲得乙個極高的壓縮比,即空間利用率不易大幅提高,儘管通過...

Hive查詢之Join語句

hive支援通常的sql join語句,但是只支援等值連線,不支援非等值連線。案例實操 1 根據員工表和部門表中的部門編號相等,查詢員工編號 員工名稱和部門名稱 hive default select e.empno,e.ename,d.deptno,d.dname from emp e join ...

Hive之資料查詢

發布於 2013 年 10 月 11 日 由 aaron 發布於 hive 一,排序和聚合 對於排序有兩種方式,一種是order by 一種是sort by order by 會對所有的資料進行排序,所以最後會只有乙個reducer來處理,如果資料量非常大,效率會非常差勁 sort by是部分排序,...