初始Hive 深入淺出學Hive

2021-06-29 12:44:34 字數 1630 閱讀 7471

第一部分:hive簡介

什麼是hive

•hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。

•本質是將sql轉換為mapreduce程式

第二部分:為什麼使用hive

面臨的問題

人員學習成本太高

專案週期要求太短

我只是需要乙個簡單的環境

mapreduce  如何搞定

複雜查詢好難

join如何實現

為什麼要使用hive

•操作介面採用類sql語法,提供快速開發的能力

•避免了去寫mapreduce,減少開發人員的學習成本

•擴充套件功能很方便

hive的特點

•可擴充套件

hive可以自由的擴充套件集群的規模,一般情況下不需要重啟服務

•延展性

hive支援使用者自定義函式,使用者可以根據自己的需求來實現自己的函式

•容錯

良好的容錯性,節點出現問題sql仍可完成執行

第三部分:hive與hadoop的關係

第四部分:hive與傳統資料庫對比

hive

rdbms

查詢語言

hql

sql

資料儲存

hdfs

raw device or local fs

執行

mapreduce

excutor

執行延遲

處理資料規模

索引

0.8版本後加入位圖索引

有複雜的索引

第五部分:hive的歷史

•由facebook 實現並開源

•2023年3月,0.7.0版本 發布,此版本為重大公升級版本,增加了簡單索引,haing等眾多高階特性

•2023年06月,0.7.1 版本發布,修復了一些bug,如在windows上使用jdbc的的問題

• 2023年12月,0.8.0版本發布,此版本為重大公升級版本,增加了insert into 、ha等眾多高階特性

•2023年2月5日,0.8.1版本發布,修復了一些bug,如 使 hive 可以同時執行在 hadoop0.20.x 與 0.23.0

•2023年4月30日,0.9.0版本發布,重大改進版本,增加了對hadoop 1.0.0的支援、實現between等特性

第六部分:hive的未來發展

•增加更多類似傳統資料庫的功能,如儲存過程

•提高轉換成的mapreduce效能

•擁有真正的資料倉儲的能力

•ui部分加強

初始Hive 深入淺出學Hive

目錄 初始hive hive安裝與配置 hive 內建操作符與函式開發 hive jdbc hive引數 hive 高階程式設計 hive ql hive shell 基本操作 hive 優化 hive體系結構 hive的原理 第一部分 hive簡介 什麼是hive hive是基於hadoop的乙個...

1 初始Hive 深入淺出學Hive

第一部分 hive簡介 什麼是hive hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。本質是將sql轉換為mapreduce程式 第二部分 為什麼使用hive 面臨的問題 人員學習成本太高 專案週期要求太短 我只是需要乙個簡單的環境 ...

hive引數 深入淺出學Hive

目錄 初始hive hive安裝與配置 hive 內建操作符與函式開發 hive jdbc hive引數 hive 高階程式設計 hive ql hive shell 基本操作 hive 優化 hive體系結構 hive的原理 第一部分 hive 引數 hive.exec.max.created.f...