oracle執行計畫hash join anti

2021-06-06 03:08:59 字數 4246 閱讀 3628

hash join概念

hash join(hj)是一種用於equi-join(而anti-join就是使用not in時的join)的技術。在oracle中,它是從7.3開始引入的,

以代替sort-merge和nested-loop join方式,提高效率。在cbo(hash join只有在cbo才可能被使用到)模式下,優化器計算代價時,

首先會考慮hash join。

可以通過提示use_hash來強制使用hash join,也可以通過修改會話或資料庫引數hash_join_enabled=false(預設為true)強

制不使用hash join。

hash join的主要資源消耗在於cpu(在記憶體中建立臨時的hash表,並進行hash計算),而merge join的資源消耗主要在於此盤io

(掃瞄表或索引)。在並行系統中,hash join對cpu的消耗更加明顯。所以在cpu緊張時,最好限制使用hash join。

在絕大多數情況下,hash join效率比其他join方式效率更高:

在sort-merge join(smj),兩張表的資料都需要先做排序,然後做merge。因此效率相對最差;

nested-loop join(nl)效率比smj更高。特別是當驅動表的資料量很大(集的勢高)時。這樣可以並行掃瞄內錶。

hash join效率最高,因為只要對兩張表掃瞄一次。 hash join一般用於一張小表和一張大表進行join時。hash join的過程大致如下(下面所說的記憶體就指sort area,關於過程,後

面會作詳細討論):

1.  一張小表被hash在記憶體中。因為資料量小,所以這張小表的大多數資料已經駐入在記憶體中,剩下的少量資料被放置在臨時表空間中;

2.  每讀取大表的一條記錄,就和小表中記憶體中的資料進行比較,如果符合,則立即輸出資料(也就是說沒有讀取臨時表空間中的小表的數

據)。而如果大表的資料與小表中臨時表空間的資料相符合,則不直接輸出,而是也被儲存臨時表空間中。

3.  當大表的所有資料都讀取完畢,將臨時表空間中的資料以其輸出。

如果小表的資料量足夠小(小於hash area size),那所有資料就都在記憶體中了,可以避免對臨時表空間的讀寫。 如果是並行環境下,前面中的第2步就變成如下了:

2.  每讀取一條大表的記錄,和記憶體中小表的資料比較,如果符合先做join,而不直接輸出,直到整張大表資料讀取完畢。如果記憶體足夠,join好的資料就儲存在記憶體中。否則,就儲存在臨時表空間中。

二、  oracle中與hash join相關的引數

1.    hash_join_enabled

這個引數是控制查詢計畫是否採用hash join的「總開關」。它可以在會話級和例項級被修改。預設為true,既可以(不是一定,要看優化器計算出來的代價)使用。如果設為

false,則禁止使用hash join。

2.   hash_area_size

這個引數控制每個會話的hash記憶體空間有多大。它也可以在會話級和例項級被修改。預設(也是推薦)值是sort area空間大小的兩倍(2*sort_area_size)。要提高

hash join的效率,就一定盡量保證sort area足夠大,能容納下整個小表的資料。但是因為每個會話都會開闢乙個這麼大的記憶體空間作為hash記憶體,所以不能過大(一般不建議

超過2m)。 在oracle9i及以後版本中,oracle不推薦在dedicated server中使用這個引數來設定hash記憶體,而是推薦通過設定

pga_aggrate_target引數來自動管理pga記憶體。保留hash_area_size只是為了向後相容。在dedicated server中,hash area是從

pga中分配的,而在mts(multi-threaded server)中,hash area是從uga中分配的。

另外,還要注意的是,每個會話並不一定只開啟乙個hash area,因為乙個查詢中可能不止乙個hash join,這是就會相應同時開啟多個

hash area。

3.             hahs_multiblock_io_count

這個引數決定每次讀入hash area的資料塊數量。因此它會對io效能產生影響。他只能在init.ora或spfile中修改。在8.0及之前版本,它的預設值是1,在8i及以後版本,預設

值是0。一般設定為1-(65536/db_block_size)。 在9i中,這個引數是乙個隱藏引數:_hash_multiblock_io_count,可以通過表x$ksppi查詢和修改。

另外,在mts中,這個引數將不起作用(只會使用1)。 它的最大值受到os的io頻寬和db_block_size的影響。既不能大於max_io_size/db_block_size。

在8i及以後版本,如果這個值設定為0,則表示在每次查詢時,oracle自己自動計算這個值。這個值對io效能影響非常大,因此,建議不要修改這個引數,使用預設值0,讓

oracle自己去計算這個值。 如果一定要設定這個值,要保證以下不等式能成立:

r/m < po2(m/c)

其中,r表示小表的大小;m=hash_area_size*0.9;po2(n)為n的2次方;c=hash_multiblock_io_count*db_block_size。

三、  hash join的過程

一次完整的hash join如下:

1.   計算小表的分割槽(bucket)數

決定hash join的乙個重要因素是小表的分割槽(bucket)數。這個數字由hash_area_size、hash_multiblock_io_count和db_block_size引數共同決定。oracle會保留hash

area的20%來儲存分割槽的頭資訊、hash點陣圖資訊和hash表。因此,這個數字的計算公式是:

bucket數=0.8*hash_area_size/(hash_multiblock_io_count*db_block_size)

2.   hash計算   

讀取小表資料(簡稱為r),並對每一條資料根據hash演算法進行計算。oracle採用兩種hash演算法進行計算,計算出能達到最快速度的hash值(第一hash值和第二hash值)

。而關於這些分割槽的全部hash值(第一hash值)就成為hash表。

3.  存放資料到hash記憶體中

將經過hash演算法計算的資料,根據各個bucket的hash值(第一hash值)分別放入相應的bucket中。第二hash值就存放在各條記錄中。

4.  建立hash點陣圖

與此同時,也建立了乙個關於這兩個hash值對映關係的hash點陣圖。

5.   超出記憶體大小部分被移到磁碟

如果hash area被佔滿,那最大乙個分割槽就會被寫到磁碟(臨時表空間)上去。任何需要寫入到磁碟分割槽上的記錄都會導致磁碟分割槽被更新。這樣的話,就會嚴重影響效能,

因此一定要盡量避免這種情況。2-5一直持續到整個表的資料讀取完畢。

6.    對分割槽排序

為了能充分利用記憶體,盡量儲存更多的分割槽,oracle會按照各個分割槽的大小將他們在記憶體中排序。

7.    讀取大表資料,進行hash匹配

接下來就開始讀取大表(簡稱s)中的資料。按順序每讀取一條記錄,計算它的hash值,並檢查是否與記憶體中的分割槽的hash值一致。如果是,返回join資料。如果記憶體中的

分割槽沒有符合的,就將s中的資料寫入到乙個新的分割槽中,這個分割槽也採用與計算r一樣的演算法計算出hash值。也就是說這些s中的資料產生的新的分割槽數應該和r的分割槽集的

分割槽數一樣。這些新的分割槽被儲存在磁碟(臨時表空間)上。

8.    完全大表全部資料的讀取

一直按照7進行,直到大表中的所有資料的讀取完畢。

9.     處理沒有join的資料

這個時候就產生了一大堆join好的資料和從r和s中計算儲存在磁碟上的分割槽。

10.   二次hash計算

從r和s的分割槽集中抽取出最小的乙個分割槽,使用第二種hash函式計算出並在記憶體中建立hash表。採用第二種hash函式的原因是為了使資料分布性更好。

11.   二次hash匹配

在從另乙個資料來源(與hash在記憶體的那個分割槽所屬資料來源不同的)中讀取分割槽資料,與記憶體中的新hash表進行匹配。返回join資料。

12.   完成全部hash join

繼續按照9-11處理剩餘分割槽,直到全部處理完畢。     整個hash join就完成了。

四、  關於唯一健值的hash點陣圖

這個位圖包含了每個hash分割槽是否有有值的資訊。它記錄了有資料的分割槽的hash值。這個點陣圖的最大作用就是,如果s表中的資料沒有與記憶體中的hash表匹配上,先檢視這

個位圖,已決定是否將沒有匹配的資料寫入磁碟。那些不可能匹配到的資料(即位圖上對應的分割槽沒有資料)就不再寫入磁碟。

ocacle 執行計畫 Oracle執行計畫

一 什麼是oracle執行計畫?執行計畫是一條查詢語句在oracle中的執行過程或訪問路徑的描述 二 怎樣檢視oracle執行計畫?因為我一直用的plsql遠端連線的公司資料庫,所以這裡以plsql為例 配置執行計畫需要顯示的項 工具 首選項 視窗型別 計畫視窗 根據需要配置要顯示在執行計畫中的列 ...

oracle執行計畫

對於一條sql語句,oracle是如何執行的,首先必須發揮你的想象,你認為它會如何去實現。是等子查詢結果全出來之後,還是子查詢每齣乙個結果,都觸發父節點去執行。沒錯,單純的 資料瀏覽當然不用等子查詢全部結束後,但涉及到排序,求和等需求的時候,就必須要等了,你可以幫它想想,全部資料不出來的話,何談去排...

Oracle 執行計畫

總結 sqlplus 下的自動顯示功能,在看執行計畫中其語句還是會被執行的。尤其在執行update delete語句時請千萬注意,oracle是先執行指令碼同時顯示執行計畫的,即使使用set autotrace on traceonly explain 這個時候推薦使用explain plan fo...