雜湊表and處理衝突的方法

雜湊法又稱雜湊法、雜湊法以及關鍵字位址計算法等，相應的表稱為雜湊表。這種方法的基本思想是：首先在元素的關鍵字k和元素的儲存位置p之間建立乙個對應關係f，使得p=f(k)，f稱為雜湊函式。建立雜湊表時，把關鍵字為k的元素直接存入位址為f(k)的單元；以後當查詢關鍵字為k的元素時，再利用雜湊函式計算出該元素的儲存位置p=f(k)，從而達到按關鍵字直接訪問元素的目的。

構造雜湊函式的原則是：①函式本身便於計算；②計算出來的位址分布均勻，即對任一關鍵字k，f(k) 對應不同位址的概率相等，目的是盡可能減少衝突。

在實際應用中，應根據具體情況，靈活採用不同的方法，並用實際資料測試它的效能，以便做出正確判定。通常應考慮以下五個因素：

l 計算雜湊函式所需時間

l 關鍵字的長度。

l 雜湊表大小。

l 關鍵字分布情況。

l 記錄查詢頻率

取關鍵字或關鍵字的某個線性函式值為雜湊位址。即h(key)=key或h(key) = a·key + b，其中a和b為常數（這種雜湊函式叫做自身函式）。若其中h(key）中已經有值了，就往下乙個找，直到h(key）中沒有值了，就放進去。

如果事先知道關鍵字集合，並且每個關鍵字的位數比雜湊表的位址碼位數多時，可以從關鍵字中選出分布較均勻的若干位，構成雜湊位址。

例如，有80個記錄，關鍵字為8位十進位制整數d1d2d3…d7d8，如雜湊表長取100，則雜湊表的位址空間為：00~99。假設經過分析，各關鍵字中d4和d7的取值分布較均勻，則雜湊函式為：h(key)=h(d1d2d3…d7d8)=d4d7。例如，h(81346532)=43，h(81301367)=06。相反，假設經過分析，各關鍵字中 d1和d8的取值分布極不均勻，d1都等於5，d8都等於2，此時，如果雜湊函式為：h(key)=h(d1d2d3…d7d8)=d1d8，則所有關鍵字的位址碼都是52，顯然不可取。

當無法確定關鍵字中哪幾位分布較均勻時，可以先求出關鍵字的平方值，然後按需要取平方值的中間幾位作為雜湊位址。這是因為：平方後中間幾位和關鍵字中每一位都相關，故不同關鍵字會以較高的概率產生不同的雜湊位址。

例：我們把英文本母在字母表中的位置序號作為該英文本母的內部編碼。例如k的內部編碼為11，e的內部編碼為05，y的內部編碼為25，a的內部編碼為01, b的內部編碼為02。由此組成關鍵字「keya」的內部**為11052501，同理我們可以得到關鍵字「kyab」、「akey」、「bkey」的內部編碼。之後對關鍵字進行平方運算後，取出第7到第9位作為該關鍵字雜湊位址，如下圖所示。

將關鍵字分割成位數相同的幾部分，最後一部分位數可以不同，然後取這幾部分的疊加和（去除進製）作為雜湊位址。數字疊加可以有移位疊加和間界疊加兩種方法。移位疊加是將分割後的每一部分的最低位對齊，然後相加；間界疊加是從一端向另一端沿分割界來回摺疊，然後對齊相加。

假設雜湊表長為m，p為小於等於m的最大素數，則雜湊函式為

h（k）=k % p ，其中%為模p取餘運算。

採用乙個偽隨機函式做雜湊函式，即h(key)=random(key)。

當關鍵字集合很大時，關鍵字值不同的元素可能會映象到雜湊表的同一位址上，即 k1≠k2 ，但 h（k1）=h（k2），這種現象稱為衝突，此時稱k1和k2為同義詞。實際中，衝突是不可避免的，只能通過改進雜湊函式的效能來減少衝突。

通過構造效能良好的雜湊函式，可以減少衝突，但一般不可能完全避免衝突，因此解決衝突是雜湊法的另乙個關鍵問題。建立雜湊表和查詢雜湊表都會遇到衝突，兩種情況下解決衝突的方法應該一致。下面以建立雜湊表為例，說明解決衝突的方法。常用的解決衝突方法有以下四種：

其基本思想是：當關鍵字key的雜湊位址p=h（key）出現衝突時，以p為基礎，產生另乙個雜湊位址p1，如果p1仍然衝突，再以p為基礎，產生另乙個雜湊位址p2，…，直到找出乙個不衝突的雜湊位址pi 。這種方法有乙個通用的再雜湊函式形式：

hi=（h（key）+di）% m   i=1，2，…，n

其中h（key）為雜湊函式，m為表長，di稱為增量序列。增量序列的取值方式不同，相應的再雜湊方式也不同。主要有以下三種：

<1> 線性探測再雜湊

① 只要雜湊表不滿，就一定能找到乙個不衝突的雜湊位址，而二次探測再雜湊和偽隨機探測再雜湊則不一定。

②思路清晰，演算法簡單

線性探測再雜湊的缺點是：

① 處理溢位需另程式設計序。一般可另外設立乙個溢位表，專門用來存放上述雜湊表中放不下的記錄。此溢位表最簡單的結構是順序表，查詢方法可用順序查詢。

② 按上述演算法建立起來的雜湊表，刪除工作非常困難。假如要從雜湊表 ht 中刪除乙個記錄，按理應將這個記錄所在位置置為空，但我們不能這樣做，而只能標上已被刪除的標記，否則，將會影響以後的查詢。

③ 線性探測法很容易產生堆聚現象。所謂堆聚現象，就是存入雜湊表的記錄在表中連成一片。按照線性探測法處理衝突，如果生成雜湊位址的連續序列愈長 ( 即不同關鍵字值的雜湊位址相鄰在一起愈長 ) ，則當新的記錄加入該錶時，與這個序列發生衝突的可能性愈大。因此，雜湊位址的較長連續序列比較短連續序列生長得快，這就意味著，一旦出現堆聚 ( 伴隨著衝突 ) ，就將引起進一步的堆聚。

<2> 二次探測再雜湊

衝突發生時，在表的左右進行跳躍式探測，比較靈活。

di = 1^2, -1^2, 2^2, -2^2, 3^2，…，±（k)^2,(k<=m/2）

<3> 偽隨機探測再雜湊

具體實現時，應建立乙個偽隨機數發生器，（如i=(i+p) % m），並給定乙個隨機數做起點。

di=偽隨機數序列。

舉例來說：

已知雜湊表長度m=11，雜湊函式為：h（key）= key % 11，則h（47）=3，h（26）=4，h（60）=5，假設下乙個關鍵字為69，則h（69）=3，與47衝突。

①如果用線性探測再雜湊處理衝突，下乙個雜湊位址為h1=（3 + 1）% 11 = 4，仍然衝突，再找下乙個雜湊位址為h2=（3 + 2）% 11 = 5，還是衝突，繼續找下乙個雜湊位址為h3=（3 + 3）% 11 = 6，此時不再衝突，將69填入5號單元。

②如果用二次探測再雜湊處理衝突，下乙個雜湊位址為h1=（3 + 1^2）% 11 = 4，仍然衝突，再找下乙個雜湊位址為h2=（3 - 1^2）% 11 = 2，此時不再衝突，將69填入2號單元。

③如果用偽隨機探測再雜湊處理衝突，且偽隨機數序列為：2，5，9，……..，則下乙個雜湊位址為h1=（3 + 2）% 11 = 5，仍然衝突，再找下乙個雜湊位址為h2=（3 + 5）% 11 = 8，此時不再衝突，將69填入8號單元。

這種方法是同時構造多個不同的雜湊函式：

hi=rh1（key）  i=1，2，…，k

當雜湊位址hi=rh1（key）發生衝突時，再計算hi=rh2（key）……，直到衝突不再產生。這種方法不易產生聚集，但增加了計算時間。

這種方法的基本思想是將所有雜湊位址為i的元素構成乙個稱為同義詞鏈的單鏈表，並將單鏈表的頭指標存在雜湊表的第i個單元中，因而查詢、插入和刪除主要在同義詞鏈中進行。鏈位址法適用於經常進行插入和刪除的情況。

例如，已知一組關鍵字（32，40，36，53，16，46，71，27，42，24，49，64），雜湊表長度為13，雜湊函式為：h（key）= key % 13，則用鏈位址法處理衝突的結果如圖所示：

本例的平均查詢長度 asl=(1*7+2*4+3*1)=1.5

與開放定址法相比，拉鍊法有如下幾個優點：

①拉鍊法處理衝突簡單，且無堆積現象，即非同義詞決不會發生衝突，因此平均查詢長度較短；

②由於拉鍊法中各煉表上的結點空間是動態申請的，故它更適合於造表前無法確定表長的情況；

③開放定址法為減少衝突，要求裝填因子α較小，故當結點規模較大時會浪費很多空間。而拉鍊法中可取α≥1，且結點較大時，拉鍊法中增加的指標域可忽略不計，因此節省空間；

④在用拉鍊法構造的雜湊表中，刪除結點的操作易於實現。只要簡單地刪去鍊錶上相應的結點即可。而對開放位址法構造的雜湊表，刪除結點不能簡單地將被刪結點的空間置為空，否則將截斷在它之後填人雜湊表的同義詞結點的查詢路徑。這是因為各種開放位址法中，空位址單元(即開放位址)都是查詢失敗的條件。因此在用開放位址法處理衝突的雜湊表上執行刪除操作，只能在被刪結點上做刪除標記，而不能真正刪除結點。

拉鍊法的缺點是：

指標需要額外的空間，故當結點規模較小時，開放定址法較為節省空間，而若將節省的指標空間用來擴大雜湊表的規模，可使裝填因子變小，這又減少了開放定址法中的衝突，從而提高平均查詢速度。

這種方法的基本思想是：將雜湊表分為基本表和溢位錶兩部分，凡是和基本表發生衝突的元素，一律填入溢位表。

雜湊表and處理衝突的方法

雜湊表處理衝突的方法

雜湊表（雜湊表）及雜湊表處理衝突的方法

雜湊表及處理衝突的方法

雜湊表and處理衝突的方法

雜湊表處理衝突的方法

雜湊表（雜湊表）及雜湊表處理衝突的方法

雜湊表及處理衝突的方法

相關推薦