《基於Apache Kylin構建大資料分析平台》

2022-05-01 22:18:12 字數 3619 閱讀 7578

kyligence聯合創始人兼ceo,apache kylin專案管理委員會主席(pmc chair)韓卿

武漢市雲昇科技發展****董事長,《智慧型城市—大資料、物聯網和雲計算之應用》作者楊正洪

萬達網路科技集團大資料中心副總經理,《spark高階資料分析》中文版譯者龔少成

資料架構師,it脫口秀(清風那個吹)創始人,《開源大資料分析引擎impala實戰》作者賈傳青

等等業內專家聯合推薦

apache kylin是乙個開源的分布式分析引擎,提供hadoop之上的sql查詢介面及多維分析(olap)能力以支援超大規模資料,最初由ebay公司開發並貢獻至開源社群。它能在亞秒內查詢巨大的hive表。

本書分為21章,詳細講解apache kylin概念、安裝、配置、部署,讓讀者對apache kylin構建大資料分析平台有乙個感性認識。同時,本書從應用角度,結合dome和例項介紹了用於多維分析的cube演算法的建立、配置與優化。最後還介紹了kyligence公司發布kap大資料分析平台,對讀者有極大的參考價值。

第一部分  apache kylin基礎部分

第1章  apache kylin前世今生 3

1.1  apache kylin的背景 3

1.2  apache kylin的應用場景 3

1.3  apache kylin的發展歷程 4

第2章  apache kylin前奏 7

2.1  事實表和維表 7

2.2  星型模型和雪花型模型 7

2.2.1  星型模型 7

2.2.2  雪花型模型 8

2.2.3  星型模型示例 8

2.3  olap 9

2.3.1  olap分類 9

2.3.2  olap的基本操作 10

2.4  資料立方體(data cube) 11

第3章  apache kylin 工作原理和體系架構 12

3.1  kylin工作原理 12

3.2  kylin體系架構 13

3.3  kylin中的核心部分:cube構建 15

3.4  kylin的sql查詢 16

3.5  kylin的特性和生態圈 16

第4章  搭建cdh大資料平台 18

4.1  系統環境和安裝包 19

4.1.1  系統環境 19

4.2  準備工作:系統環境搭建 21

4.2.1  網路配置(cdh集群所有節點) 21

4.2.2  打通ssh,設定ssh無密碼登入(所有節點) 21

4.3  正式安裝cdh:準備工作 29

4.4  正式安裝cdh5:安裝配置 30

4.4.1  cdh5的安裝配置 30

4.4.2  對hive、hbase執行簡單操作 39

第5章  使用kylin構建企業大資料分析平台的4種部署方式 41

5.1  kylin部署的架構 41

5.2  kylin的四種典型部署方式 42

第6章  單獨為kylin部署hbase集群 44

第7章  部署kylin集群環境 58

7.1  部署kylin的先決條件 58

7.2  部署kylin集群環境 61

7.3  為kylin集群搭建負載均衡器 70

7.3.1  搭建nginx環境 70

7.3.2  配置nginx實現kylin的負載均衡 73

第二部分  apache kylin 高階部分

第8章  demo案例實戰 77

8.1  sample cube案例描述 77

8.2  sample cube案例實戰 78

8.2.1  準備資料 78

8.2.2  構建cube 81

第9章  多維分析的cube建立實戰 89

9.1  cube模型 89

9.2  建立cube的流程 90

9.2.1  步驟一:hive中事實表,以及多張維表的處理 90

9.2.2  步驟二:kylin中建立專案(project) 95

9.2.3  步驟三:kylin中建立資料來源(data source) 95

9.2.4  步驟四:kylin中建立資料模型(model) 98

9.2.5  步驟五:kylin中建立cube 104

9.2.6  步驟六:build cube 114

9.2.7  步驟七:查詢cube 118

第10章  build cube的來龍去脈 120

10.1  流程分析 120

10.2  小結 134

第三部分  apache kylin 高階部分

第11章  cube優化 137

第12章  備份kylin的metadata 142

12.1  kylin的元資料 142

12.2  備份元資料 143

12.3  恢復元資料 146

第13章  使用hive檢視 147

13.1  使用hive檢視 147

13.2  使用檢視實戰 149

第14章  kylin的垃圾清理 153

14.1  清理元資料 153

14.2  清理儲存器資料 154

第15章  jdbc訪問方式 157

第16章  通過restful訪問kylin 161

第17章  kylin版本之間公升級 179

17.1  從1.5.2公升級到最新版本1.5.3 179

17.2  從1.5.1公升級到1.5.2版本 180

17.3  從kylin 1.5.2.1公升級到kylin 1.5.3實戰 181

17.4  補充內容 187

第18章  大資料視覺化實踐 189

18.1  視覺化工具簡述 189

18.2  安裝kylin odbc驅動 190

18.3  通過excel訪問kylin 192

18.4  通過power bi訪問kylin 194

18.4.1  安裝配置power bi 194

18.4.2  實戰操作 198

18.5  通過tableau訪問kylin 199

18.6  kylin   mondrian  saiku 205

18.7  實戰演練:通過saiku訪問kylin 211

18.7.1  第乙個schema例子:myproject_pvuv_cube的演示 211

18.7.2  第二個schema例子:kylin_sales_cube的演示 219

18.7.3  saiku使用的一些問題 223

18.8  通過apache zepplin訪問kylin 229

18.9  通過kylin的「insight」查詢 232

第19章  使用streaming table 構建準實時cube 236

第20章  快速資料立方演算法 251

20.1  快速資料立方演算法概述 251

20.2  快速資料立方演算法優點和缺點 253

20.3  獲取fast cubing演算法的優勢 254

第四部分  apache kylin的擴充套件部分

第21章  大資料智慧型分析平台kap 257

21.1  大資料智慧型分析平台kap概述 257

21.2  kap的安裝部署 259

APACHE KYLIN簡單介紹

apache kylin 概覽 apache kylin 是乙個開源的分布式分析引擎,提供hadoop之上的sql查詢介面及多維分析 olap 能力以支援超大規模資料,最初由ebay inc.開發並貢獻至開源社群。它能在亞秒內查詢巨大的hive表。kylin是什麼?可擴充套件超快olap引擎 kyl...

Apache Kylin使用總結

apache kylin是一款以預處理cube來提高查詢速度的olap引擎。首先對維度表做個簡單的介紹。麒麟只支援星型模型,也就是說乙個事實表加上多個維度表。維度表不存在支架型結構。維度表存放的大多是描述性字段,用於篩選。其實以sql的角度來看就是group by filter through wh...

Apache Kylin集群部署

筆者所在的公司,目前打算在測試 生產環境上面部署apache kylin集群,注意以下幾點 1 kylin.server.mode all,job,query 這個決定了當前kylin節點所擔任的角色,乙個kylin集群只能有一台作業引擎,也即只能有一台節點的這個配置專案為all或者job 可以有多...