hive架構
hive架構圖
hive與hadoop的關係
hive利用hdfs儲存資料,利用mapreduce查詢資料
hive與hadoop關係圖
hive的資料儲存
1、hive中所有的資料都儲存在 hdfs 中,沒有專門的資料儲存格式(可支援text,sequencefile,parquetfile,rcfile等)
2、只需要在建立表的時候告訴 hive 資料中的列分隔符和行分隔符,hive 就可以解析資料。
3、hive 中包含以下資料模型:db、table,external table,partition,bucket。
external table:與table類似,不過其資料存放位置可以在任意指定路徑
partition:在hdfs中表現為table目錄下的子目錄
bucket:在hdfs中表現為同乙個表目錄下根據hash雜湊之後的多個檔案
hive操作符operator
• 編譯器將乙個hive ql轉換操作符
• 操作符是hive的最小的處理單元
• 每個操作符代表hdfs的乙個操作或者一道mapreduce作業operator
• operator都是hive定義的乙個處理過程
• operator都定義有:
• protected list > childoperators;
• protected list > parentoperators;
• protected boolean done; // 初始化值為false
• 所有的操作構成了 operator圖,hive正是基於這些圖關係來處理諸如limit, group by, join等操作
1、 提交sql ,交給驅動2、驅動編譯,解析相關的字段表資訊
3、去metastore查詢相關的資訊,返回字段表資訊
4、編譯返回資訊 發給驅動
5、驅動傳送乙個執行計畫,交給執行引擎
6.0、ddls 對資料庫表的操作的 直接和metastore互動
create table tab(name string);
6.1、把job交給job tracker 讓task tracker執行 返回執行資訊
6.2、完成job返回資料資訊,找namenode查資料
6.3、namenode互動
select count(1) from tab;
6.1、dfs ops 直接和直接去資料
select * from tab;
7、返回結果資訊集
Hive基本概念
什麼是hive 是乙個基於hadoop的資料倉儲工具,可以將結構化資料對映成一張資料表,並提供類sql的查詢功能。hive的意義是什麼 背景 hadoop是個好東西,但是學習難度大,成本高,坡度陡。意義 目的 降低程式設計師使用hadoop的難度。降低學習成本。hive可以對資料進行儲存與計算 儲存...
Hive基本概念
hive由facebook開源,用於解決海量結構化日誌的資料統計問題。hive是hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張表,並提供類sql查詢功能。其本至就是將hql轉化成mapreduce程式。缺點執行機制 hive通過使用者提供的一系列互動介面,接收使用者的指令 sql ...
hive核心基本概念
基於 hadoop 的乙個資料倉儲工具 hive本身不提供資料儲存功能,使用hdfs做資料儲存,hive也不分布式計算框架,hive的核心工作就是把sql語句翻譯成mr程式 hive也不提供資源排程系統,也是預設由hadoop當中yarn集群來排程 可以將結構化的資料對映為一張資料庫表,並提供 hq...