hive基礎概述

2021-07-24 09:42:41 字數 881 閱讀 8639

hive:資料倉儲,hive是乙個基於hadoop的資料倉儲工具,將結構化的資料檔案對映成一張

表,並提供類sql的查詢功能。

hql(hive query language)

hive

用hql作為查詢語句,

儲存在hdfs上,

使用mapreduce作為計算工具,

支援udf

支援自定義儲存格式

適合做大量的離線資料處理

hive的使用者介面:clt 使用者介面,最常用

jdbc/odbc

webui

元資料:metadata,包括表名,表所屬的資料庫,表的擁有者、列/分割槽字段、表的型別(是否是外部表)、

表的資料所在目錄等;

metadata預設儲存在derby資料庫中

derby資料庫是hive自帶的資料庫

使用derby資料庫來儲存元資料,它不能支援多使用者併發訪問hive

使用mysql資料庫來替代預設的derby資料庫,可以支援多使用者訪問。

使用場景

--hive的本質是hadoop mr;

--適用用離線的資料處理

hql查詢介面

hdfs儲存檔案

使用mr處理資料

體現結構

型別:資料庫,表,檢視,索引,函式

格式:文字(textfile),序列file rcfile

可解析的資料

功能模組

1、基礎模組:hdfs,mr

2、hql解析:解析查詢語句

3、優化處理:優化hql語句

4、生成執行計畫

5、執行

6、驅動

7、客戶端:cli(命令列;jdbc)

8、元資料(mate store)

hive概述,hive是什麼

hive是基於hadoop的資料倉儲解決方案。由於hadoop本身在資料儲存和計算方面有很好的可擴充套件性和高容錯性,因此使用hive構建的資料倉儲也秉承了這些特性。這是來自官方的解釋。簡單來說,hive就是在hadoop上架了一層sql介面,可以將sql翻譯成mapreduce去hadoop上執行...

Hive學習筆記 Hive概述

1.1 資料倉儲 可以利用資料倉儲來儲存我們的資料,但是資料倉儲有別於我們常見的一般資料庫。資料倉儲是乙個面向主題的 整合的 不可更新的 隨時間不變化的資料整合,它用於支援企業或組織的決策分析處理。物件導向的 倉庫中的資料是按照一定的主題進行組織的。主題即使用者使用資料倉儲進行決策時所關心的重點方面...

Hive概述 學習筆記

資料倉儲 資料倉儲 data warehouse 是乙個面向主題的 subject oriented 整合的 integrated 相對穩定的 non volatile 反映歷史變化 time variant 的資料集合,用於支援管理決策。水平 橫向擴充套件 增加節點 垂直 縱向擴充套件 增加節點能...