Spark SQL Join實現原理

1. 概要

join是sql語言中常用的操作，一般用於建立多表之間的連線關係。spark sql有兩類(三種)join的實現，每種join的實現方式都有各自不同的應用場景。

hash join實現原理

先來看看這樣一條sql語句：select * from order,item where item.id = order.i_id，參與join的兩張表是order和item，join key分別是item.id以及order.i_id。現在假設join採用的是hash join演算法，整個過程會經歷三步：

確定build table以及probe table：這個概念比較重要，build table會被構建成以join key為key的hash table，而probe table使用join key在這張hash table表中尋找符合條件的行，然後進行join鏈結。build表和probe表是spark決定的。通常情況下，小表會被作為build table，較大的表會被作為probe table。

構建hash table：依次讀取build table(item)的資料，對於每一條資料根據join key(item.id)進行hash，hash到對應的bucket中(類似於hashmap的原理)，最後會生成一張hashtable，hashtable會快取在記憶體中，如果記憶體放不下會dump到磁碟中。

匹配：生成hash table後，在依次掃瞄probe table(order)的資料，使用相同的hash函式在hash table中尋找hash(join key)相同的值，如果匹配成功就將兩者join在一起。

hash join效能如何？很顯然，hash join基本都只掃瞄兩表一次，可以認為是o(a + b)，較之最極端的是笛卡爾積運算o(a * b)。

為什麼build table選擇小表？道理很簡單，因為構建hash table時，最好可以把資料全部載入到記憶體中，這也決定了hash join只適合於一張表較小的場景，如果是兩個較大表的場景就不適用了。

上文的hash join是傳統資料庫中的單機join演算法，為了盡可能利用分布式計算資源進行平行計算，提高總體效率，在分布式環境下需要經過一定的改造。hash join分布式實現有broadcast hash join和shuffle hash join兩種方案：

broadcast hash join

broadcast hash join可以分為兩步：

broadcast階段：將小表廣播到所有的executor上，廣播的演算法有很多，最簡單的是先發給driver，driver再統一分發給所有的executor，或者就是基於bt的p2p思路。

hash join階段：在每個executor上執行hash join，小表構建為hash table，大表的分割槽資料匹配hash table中的資料；

broadcast hash join有以下幾個條件：

被廣播的表大小需要小於spark.sql.autobroadcastjointhreshold的值，預設是10m；

基表不能被廣播，比如left outer join時只能廣播右表。

broadcast hash join的缺點也是比較明顯的，即只能廣播較小的表，否則資料的冗餘傳輸會遠大於shuffle的開銷。另外被廣播的表在每個executor上都會儲存乙份，這會對executor的記憶體造成一定的壓力。

shuffle hash join

shuffle hash join分為兩步：

對兩張表分別按照join key進行shuffle，那麼相同的key一定會落到相同的分割槽。

對應分割槽中的資料進行join，先將小表分割槽構建為乙個hash表，然後根據大表中記錄的join key的hash值拿來進行匹配，即每個節點單獨執行hash演算法。

hash join方式只對於兩張表中有一張是小表的情況適用，但當兩個表都非常大時則不適合。這是因為join時生成的join key會非常大，不能將資料完全載入到記憶體中。為了應對大表join的場景，sparksql提供了一種全新的方案sort merge join。

sort merge join首先將兩張表按照join key進行重新shuffle，保證join key值相同的記錄會被分在相應的分割槽，分割槽後對每個分區內的資料進行排序，排序後再對相應的分區內的記錄進行連線。可以看出，無論分割槽有多大，sort merge join都不用把一側的資料全部載入到記憶體中，因為兩個序列都是有序的，此時從頭遍歷，碰到key相同的就輸出，如果不同，左邊小就繼續取左邊，反之取右邊。

整個過程分為三個步驟：

shuffle階段：將兩張大表根據join key進行重新分割槽。

sort階段：對單個分割槽節點的兩表資料，分別進行排序；

merge階段：對排好序的兩張分割槽表資料執行join操作。join操作很簡單，分別遍歷兩個有序序列，碰到相同join key就merge輸出，否則取更小一邊，見下圖示意：

Spark SQL Join實現原理

ConcurrentHashMap實現原理

ConcurrentHashMap 實現原理

iOS NSDictionary 字典實現原理

Spark SQL Join實現原理

ConcurrentHashMap實現原理

ConcurrentHashMap 實現原理

iOS NSDictionary 字典 實現原理

相關推薦

iOS NSDictionary 字典實現原理