APACHE KYLIN 概覽 分布式分析引擎

2022-04-12 00:43:20 字數 1172 閱讀 1366

apache kylin™是乙個開源的分布式分析引擎,提供hadoop/spark之上的sql查詢介面及多維分析(olap)能力以支援超大規模資料,最初由ebay inc. 開發並貢獻至開源社群。它能在亞秒內查詢巨大的hive表。

kylin是什麼?

- 可擴充套件超快olap引擎:

kylin是為減少在hadoop/spark上百億規模資料查詢延遲而設計

- hadoop ansi sql 介面:

kylin為hadoop提供標準sql支援大部分查詢功能

- 互動式查詢能力:

通過kylin,使用者可以與hadoop資料進行亞秒級互動,在同樣的資料集上提供比hive更好的效能

- 多維立方體(molap cube):

使用者能夠在kylin裡為百億以上資料集定義資料模型並構建立方體

- 與bi工具無縫整合:

kylin提供與bi工具的整合能力,如tableau,powerbi/excel,mstr,qliksense,hue和superset

- 其他特性:

- job管理與監控 

- 壓縮與編碼 

- 增量更新 

- 利用hbase coprocessor(協同處理器)

- 基於hyperloglog的dinstinc count近似演算法 

- 友好的web介面以管理,監控和使用立方體 

- 專案及表級別的訪問控制安全

- 支援ldap(輕量級目錄訪問協議)、sso(單點登入)

kylin 生態圈

kylin 核心:kylin olap引擎基礎框架,包括元資料(metadata)引擎,查詢引擎,job引擎及儲存引擎等,同時包括rest伺服器以響應客戶端請求

擴充套件:支援額外功能和特性的外掛程式

整合:與排程系統,etl,監控等生命週期管理系統的整合

使用者介面:在kylin核心之上擴充套件的第三方使用者介面

驅動:odbc 和 jdbc 驅動以支援不同的工具和產品,比如tableau

分布式事務概覽

一 強一致性解決方案 1 二階段提交協議 第一階段準備,第二階段提交 2 三階段提交協議 第一階段預備,第二階段準備,第三階段提交。同時引入了超時機制,如果超時預設提交成功。可能會出現資料的不一致性。二 最終一致性解決方案 可能會需要手工介入 1 tcc模式 try confirm cancel 基...

APACHE KYLIN簡單介紹

apache kylin 概覽 apache kylin 是乙個開源的分布式分析引擎,提供hadoop之上的sql查詢介面及多維分析 olap 能力以支援超大規模資料,最初由ebay inc.開發並貢獻至開源社群。它能在亞秒內查詢巨大的hive表。kylin是什麼?可擴充套件超快olap引擎 kyl...

Apache Kylin使用總結

apache kylin是一款以預處理cube來提高查詢速度的olap引擎。首先對維度表做個簡單的介紹。麒麟只支援星型模型,也就是說乙個事實表加上多個維度表。維度表不存在支架型結構。維度表存放的大多是描述性字段,用於篩選。其實以sql的角度來看就是group by filter through wh...