大資料 Hive 簡介

2022-03-25 12:28:21 字數 1365 閱讀 6551

第一部分:hive簡介

什麼是hive

•hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。

•本質是將sql轉換為mapreduce程式

第二部分:為什麼使用hive

面臨的問題

人員學習成本太高

專案週期要求太短

我只是需要乙個簡單的環境

mapreduce  如何搞定

複雜查詢好難

join如何實現

為什麼要使用hive

•操作介面採用類sql語法,提供快速開發的能力

•避免了去寫mapreduce,減少開發人員的學習成本

•擴充套件功能很方便

hive的特點

•可擴充套件

hive可以自由的擴充套件集群的規模,一般情況下不需要重啟服務

•延展性

hive支援使用者自定義函式,使用者可以根據自己的需求來實現自己的函式

•容錯良好的容錯性,節點出現問題sql仍可完成執行

第三部分:hive與hadoop的關係

發出sql-->hive 處理,轉換成mapreduce,提交任務到hadoop-->mapreduce 執行,hdfs 儲存

第四部分:hive與傳統資料庫對比

hive

rdbms

查詢語言

hqlsql

資料儲存

hdfs

raw device or local fs

執行mapreduce

excutor

執行延遲高低

處理資料規模大小

索引0.8版本後加入位圖索引

有複雜的索引

第五部分:hive的歷史

•由facebook 實現並開源

•2023年3月,0.7.0版本 發布,此版本為重大公升級版本,增加了簡單索引,haing等眾多高階特性

•2023年06月,0.7.1 版本發布,修復了一些bug,如在windows上使用jdbc的的問題

• 2023年12月,0.8.0版本發布,此版本為重大公升級版本,增加了insert into 、ha等眾多高階特性

•2023年2月5日,0.8.1版本發布,修復了一些bug,如 使 hive 可以同時執行在 hadoop0.20.x 與 0.23.0

•2023年4月30日,0.9.0版本發布,重大改進版本,增加了對hadoop 1.0.0的支援、實現between等特性

第六部分:hive的未來發展 

•增加更多類似傳統資料庫的功能,如儲存過程

•提高轉換成的mapreduce效能

•擁有真正的資料倉儲的能力

•ui部分加強

大資料 Hive 簡介

第一部分 hive簡介 什麼是hive hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。本質是將sql轉換為mapreduce程式 第二部分 為什麼使用hive 面臨的問題 人員學習成本太高 專案週期要求太短 我只是需要乙個簡單的環境 ...

大資料倉儲hive初識簡介

hive是facebook實現並開源的用於解決海量結構化日誌的資料統計,是為了解決mapreduce程式設計的不便性以及成本高的問題,可以簡化操作 什麼是hive 處理的資料儲存在hdfs上 底層分析資料的實現是mapreduce 執行程式執行在yarn上 hive是基於hadoop的乙個資料倉儲工...

大資料簡介

計算的速度比較慢 計算的資料量大 需要的技術hadoop hive 離線分析,他的本質就是hadoop sqoop 協作框架 hbase 資料庫,非關係型資料庫,分布式資料庫 flume 寫作框架,收集日誌資料 cm 圖形化管理器,監控集群資源狀態,部署集群。計算的資料量體量沒有離線大。計算的速度快...