國人之光大資料分析神器Apache Kylin

apache kylin™是乙個開源的、分布式的分析型資料倉儲，提供hadoop/spark 之上的 sql 查詢介面及多維分析（olap）能力以支援超大規模資料，最初由 ebay 開發並貢獻至開源社群。之所以說它是國人之光，是因為它是首個由國人主導的apache頂級開源專案，能在亞秒內查詢巨大的表。

先了解一下幾個概念，如下有一張表

id客戶號

交易日期

交易型別金額1

00120201230

工資代發

1000000

2002

20210101

轉賬66666

3003

20210115

信用卡還款

1888

查詢某個客戶在哪個時間進行某種交易的金額，這種是多維分析，其中客戶號、交易日期和交易型別是維度（dimensions），金額是度量（measures）。

根據**中三個維度乙個度量，可以畫出如下圖形

對於乙個多維模型，在查詢上有多種組合，比如一維的：客戶號/交易日期/交易型別二維的：客戶號+交易日期/客戶號+交易型別/交易日期和交易型別三維的：客戶號+交易日期+交易型別對於每一種組合，稱之為cuboid，這這些組合的統一，則是cube。cube定義了使用的模型、模型的維度和度量等資訊。

別急，這不就準備講了嘛。kylin是為減少在hadoop/spark上百億規模資料查詢延遲而設計的。

對於效率要求較高的大規模資料集的查詢，尤其多維查詢的時候，資料倉儲中一般存在事實表和維度表，需要關聯很多維度表，這就給查詢帶來一定的壓力，查詢效率低下。為了解決這個問題，kylin應運而生。

但是kylin為什麼快呢？

主要是因為它的預計算，它將多維分析可能用到的度量進行預計算，將計算好的結果儲存成cube並儲存到hbase中，供查詢時直接訪問。說到底就是用空間換時間。

大致流程：將資料來源(比如hive)中的資料按照指定的維度和指標，由計算引擎mapreduce離線計算出所有可能的查詢結果(即cube)儲存到hbase中。hbase中每行記錄的rowkey由各維度的值拼接而成，度量會儲存在column family中。為了減少儲存代價，會對維度和度量進行編碼。查詢階段，利用hbase列儲存的特性就可以保證kylin有良好的快速響應和高併發。

kylin的架構主要有這幾個部分：

源資料：hive、kafka、rdbms等；

對外查詢介面：rest api、jdbc/odbc；

儲存引擎：hbase；

構建cube的計算引擎。

其中構建cube的計算引擎模組如下：

rest server：是一套面向應用程式開發的入口點，旨在實現針對kylin平台的應用開發工作。

query engine：當cube準備就緒後，查詢引擎就能夠獲取並解析使用者查詢。

routing：查詢路由，負責將解析的sql生成的執行計畫轉換成cube快取的查詢，若查詢沒辦法從cube快取中獲取，則下壓至資料來源進行查詢。

metadata：kylin是由元資料驅動的。元資料管理工具是一大關鍵性元件，用於對儲存在kylin當中的所有元資料進行管理，其中包括最為重要的cube元資料。

cube build engine：這套引擎的作用在於處理所有離線任務。

國人之光大資料分析神器Apache Kylin

大資料分析工具

大資料分析流程

大資料分析框架

國人之光 大資料分析神器Apache Kylin

大資料分析工具

大資料分析流程

大資料分析框架

相關推薦

國人之光大資料分析神器Apache Kylin