Hive基礎介紹

2021-09-29 15:22:28 字數 1134 閱讀 7131

hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。

本質將sql轉換為mapreduce的任務進行運算,底層由hdfs來提供資料的儲存,通常進行一次寫多次讀操作。

優點

介面採用類sql語法,簡單易上手

避免寫mapreduce,減少開發人員學習成本

適合處理大資料,常用於對實時性要求不高的資料分析場合

支援自定義函式

缺點

hql表達能力有限,無法表達迭代式演算法,不擅長資料探勘效率較低,自動生成的mr作業不夠智慧型化,調優較困難,粒度不夠細

1. 查詢語言:查詢語言類似

2. 資料儲存位置:hive資料存在hdfs中,資料庫的資料存塊裝置或本地檔案系統中

3. 資料更新:hive 中資料多讀少寫,資料庫中資料經常需要修改

4. 索引:hive暴力掃瞄整個資料,無索引,資料庫為資料建立索引

5. 執行:hive大多通過hadoop提供的mr實現查詢,資料庫則通過自己的執行引擎

6. 執行延遲:hive暴力掃瞄,採用mr,具有較高延遲,資料庫建立索引,延遲較低,但hive可並行處理大規模資料,而資料庫可處理的資料規模十分有限

7. 可拓展性:hive基於hadoop,拓展性與hadoop一致;資料庫受acid(事務管理)語義限制,最先進oracle的理論拓展100臺

8. 資料規模:hive支援大規模資料,資料庫可支援的資料規模較小

hive基本介紹和基礎

1 hive基本概念 hive基於hadoop的乙個資料倉儲工具 hive本身不提供資料儲存功能,使用hdfs做資料儲存 hive也是分布式計算框架,hive的核心工作就是把sql語句翻譯成mr程式 hive不提供資源排程,也是預設由hadoop當中yarn集群來排程 可以將結構的資料對映為一張資料...

Hive簡單介紹

學習慕課網 走近大資料之hive入門 教程的筆記。簡單介紹了hive的安裝,使用和基礎知識。hive是基於hadoop之上的資料倉儲 也是一種資料庫 資料倉儲一般不更新,一直增大。資料倉儲的結構和建立過程 oltp 聯機事務處理,例 銀行轉賬。olap 聯機分析處理,例 商品推薦系統。資料倉儲的資料...

Hive 介紹 概念

hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能 hql 其本質是將sql轉換為mapreduce的任務進行運算,底層由hdfs來提供資料的儲存,hive可以理解為乙個將sql轉換為mapreduce的任務的工具。每次的執行開銷較大,任務...