hive 查詢執行分析

2021-06-23 04:42:01 字數 490 閱讀 4060

group by 的實現 

若只有乙個reduce 那麼結果是按照key全排序的

若有若干個reduce 那麼結果是部分排序 

inner join 的實現

inner join 內連線

left out join ,right out join ,full outer join 是外連線

內連線 和 外連線 都是叫做reduce端連線 通過給map的輸出加標記 來實現的

半連線 left semi join   

對待右表中重複key的處理方式差異:因為 

left semi join 是 in(keyset) 的關係,遇到右表重覆記錄,左表會跳過,而 join on 則會一直遍歷

mapjoin 提示  : map 端連線   問題是對待重複的key怎麼辦?

on 子句的過濾條件 作用於表的掃瞄階段 

where 子句的過濾條件 作用於 連線之後的結果 兩者不同

Hive執行流程分析

先看0.7.1的執行過程 hive select from table02 where id 500000 對於這樣的乙個查詢,hive從clidriver這個類的main函式開始 clidriver.main string args clisessionstate ss new clisessio...

Hive (十六)Hive 執行過程例項分析

二 join 三 group by 四 distinct 1 hive 將 hql 轉換成一組操作符 operator 比如 groupbyoperator,joinoperator 等 2 操作符 operator 是 hive 的最小處理單元 3 每個操作符代表乙個 hdfs 操作或者 mapr...

Hive(九)Hive 執行過程例項分析

一 hive 執行過程概述 1 hive 將 hql 轉換成一組操作符 operator 比如 groupbyoperator,joinoperator 等 2 操作符 operator 是 hive 的最小處理單元 3 每個操作符代表乙個 hdfs 操作或者 mapreduce 作業 1 pars...