Apache Kylin大資料分析引擎

2021-07-31 17:07:30 字數 1143 閱讀 1672

apache kylin

kylin最開始由

ebay公司貢獻給開源社群。

apache kylin支援你通過3個步驟以亞秒級的延遲查詢巨量的資料集合。

1.在hadoop上定義乙個星型資料結構schema。

2.根據定義的表來建立資料立方體。

3.通過odbc, jdbc or restful api用標準的

ansi-sql進行查詢,亞秒級的查詢延遲返回結果。

kylin是什麼?

- 可擴充套件超快olap引擎: 

kylin是為減少在hadoop上百億規模資料查詢延遲而設計

- hadoop ansi sql 介面: 

kylin為hadoop提供標準sql支援大部分查詢功能

- 互動式查詢能力: 

通過kylin,使用者可以與hadoop資料進行亞秒級互動,在同樣的資料集上提供比hive更好的效能

- 多維立方體(molap cube):

使用者能夠在kylin裡為百億以上資料集定義資料模型並構建立方體

- 與bi工具無縫整合:

kylin提供與bi工具,如tableau,的整合能力,即將提供對其他工具的整合

- 其他特性:

- job管理與監控 

- 壓縮與編碼 

- 增量更新 

- 利用hbase coprocessor

- 基於hyperloglog的dinstinc count近似演算法 

- 友好的web介面以管理,監控和使用立方體 

- 專案及立方體級別的訪問控制安全

- 支援ldap

kylin 生態圈

kylin 核心: kylin olap引擎基礎框架,包括元資料(metadata)引擎,查詢引擎,job引擎及儲存引擎等,同時包括rest伺服器以響應客戶端請求

擴充套件: 支援額外功能和特性的外掛程式

整合: 與排程系統,etl,監控等生命週期管理系統的整合

使用者介面: 在kylin核心之上擴充套件的第三方使用者介面

驅動: odbc 和 jdbc 驅動以支援不同的工具和產品,比如tableau

《基於Apache Kylin構建大資料分析平台》

kyligence聯合創始人兼ceo,apache kylin專案管理委員會主席 pmc chair 韓卿 武漢市雲昇科技發展 董事長,智慧型城市 大資料 物聯網和雲計算之應用 作者楊正洪 萬達網路科技集團大資料中心副總經理,spark高階資料分析 中文版譯者龔少成 資料架構師,it脫口秀 清風那個...

apache kylin 資料匯入hive

編寫匯入資料的sql指令碼 建表1.drop database if exists sample 2.create database sample 3.drop table if exists sample.kylin cal dt 4.create table sample.kylin cal d...

大資料分庫 分表設計(mysql)

1.應用場景 使用mysql資料庫做查詢,當資料量超過200w時,查詢數度受到限制,此時為了避開這一瓶頸,我們採取分庫分表的資料庫設計思想,將資料按照一定規律儲存至資料庫,常用的方式如下 1.1使用時間作為依據分庫 分表 例如,我們可以將資料按照月份儲存在表中,例如 translate 2015 0...