從HiveQL到MapReduce job過程簡析

hiveql是一種宣告式語言，使用者提交查詢，而hive會將其轉換成mapreduce job，如下圖。一般來說大部分時間可以無視這個執行過程的內部邏輯，但是如果能了解這些底層實現細節，在調優的時候就會更得心應手。

將hiveql轉化為mapreduce任務，整個編譯過程主要分為六個階段：

（1）antlr（another tool for language recognition）

是乙個語法分析器（parser），可以用來構造領域語言。它允許我們定義識別字元流的詞法規則和用於解釋token流的語法分析規則，然後，antlr將根據使用者提供的語法檔案自動生成相應的詞法/語法分析器。使用者可以利用他們將輸入的文字進行編譯，並轉換成其他形式，如ast。

（2）ast（abstract syntax tree）

ast表明hive是如何將查詢解析成token（符號）和literal（字面值）的，以下面的hql為例：

select
sum(number) from onecol;

轉化為ast的形式為：

abstract syntax tree;
(tok_query
(tok_from (tok_tabref (tok_tabname onecol)))
(tok_insert (tok_destination (tok_dir tok_tmp_file))
(tok_select
(tok_selexpr
(tok_function 
sum (tok_table_or_col number))))))

這個過程主要是遍歷ast，抽象出查詢的基本組成單元查詢塊queryblock。queryblock是一條sql最基本的組成單元，包括三個部分：輸入源，計算過程，輸出。簡單來講乙個queryblock就是乙個子查詢。

遍歷queryblock，生成operatortree，operatortree由很多邏輯操作符組成，如tablescanoperator、selectoperator、filteroperator、joinoperator、groupbyoperator和reducesinkoperator等。這些邏輯操作符可在map、reduce階段完成某一特定操作。

hive驅動模組中的邏輯優化器對operatortree進行優化，變換operatortree的形式，合併多餘的操作符，減少mr任務數、以及shuffle階段的資料量；

遍歷優化後的operatortree，根據operatortree中的邏輯操作符生成需要執行的mr任務。

啟動hive驅動模組中的物理優化器，對生成的mr任務進行優化，生成最終的mr任務執行計畫。

整體流程如下：

2. 大資料時代--hive技術原理解析

3. 基於hadoop的資料倉儲hive 基礎知識

4. hive sql的編譯過程

（完）

從HiveQL到MapReduce job過程簡析

從資料到資訊到決策

從南京到北京

從能力到素質

從HiveQL到MapReduce job過程簡析

從資料到資訊到決策

從南京到北京

從能力到素質

相關推薦