Chord演算法(原理)

2021-09-06 16:00:42 字數 3697 閱讀 3856

chrod

演算法是p2p中的四大演算法之中的乙個,是有mit(麻省理工學院)於2023年提出,其它三大演算法各自是:

chord的目的是提供一種能在p2p網路高速定位資源的的演算法,cord並不關心資源是怎樣儲存的,僅僅是從演算法層面研究資源的取得,因此chord的api就簡單到僅僅有乙個set、get。

chord是乙個演算法,也是乙個協議。作為乙個演算法,chord能夠從數學的角度嚴格證明其正確性和收斂性;作為乙個協議,chord具體定義了每乙個環節的訊息型別。當然,chord之所以受追捧,另乙個主要原因就是chord足夠簡單,3000行的**就足以實現乙個完整的chord。

chord還能夠被作為乙個一致性雜湊、分布式雜湊(dht)的實現。

覆蓋網路是指這樣一種網路:構建在其它網路之上、網路節點之間通過虛擬或邏輯連線在一起,比方雲計算、分布式系統都是覆蓋網路,由於其都構建於tcp/ip之上,且節點之間有聯絡。chord也是構建於覆蓋網路。

非結構化的p2p網路是指網路節點之間不存在組織關係,節點之間全然是對等的,比方第一代p2p網路napster,這類網路結構清晰、簡單,但查詢沒有多大的優化餘地,常常採用全域性或分割槽泛洪查詢,查詢時間長、且結果難以保證(有可能在找到前就超時)。

結構化的p2p網路與非結構化恰好相反,我們覺得網路在邏輯上存在乙個人為設計的結構,比方chord假定網路是乙個環,kadelima則假定為一顆二叉樹,全部的節點均為樹的葉子節點。有了這些邏輯結構,就給我們資源查詢引入了很多其它的演算法和思路。

dht的主要想法是把網路上資源的訪問像hashtable一樣,能夠簡單而高速地進行put、get,該思想的誕生主要是受第一代p2p(napster)網路的影響。與一致性雜湊相比,dht更強調的是資源的訪問,而無論資源是否是一致性的。與一致性雜湊同樣的是,dht也僅僅是乙個概念,詳細細節留給各實現。

當前這些p2p實現能夠被作為dht的詳細實現,再次再列舉一些有代表性的實現:

chord通過把node和key對映到同樣的空間而保證一致性雜湊,為了保證雜湊的非反覆性,chord選擇sha-1作為雜湊函式,sha-1會產生乙個2160的空間,每項為乙個16位元組(160bit)的大整數。我們能夠覺得這些整數首尾相連形成乙個環,稱之為chord環。整數在chord環上按大小順時針排列,node(機器的ip位址和port)與key(資源標識)都被雜湊到chord環上,這樣我們就假定了整個p2p網路的狀態為乙個虛擬的環,因此我們說chord是結構化的p2p網路。

以下有幾個定義:

如圖:紅色點為node,藍色為標誌符。上面僅僅是部分節點和標誌符,以節點n1為例說明其finger表中的successor:

noith successor

successor

1n1+20

n18 

2n1+21

n183

n1+22

n184

n1+23

n185

n1+24

n186

n1+25

n457

n1+26n18

n1+27

n1

把node和key都對映到乙個值域感覺是把狗和貓放在一起衡量,儘管有點怪,但這樣能夠保證一致性雜湊,詳細能夠參考前文。

非常顯然,分布在chord環上的node數遠遠小於標誌符數(2160是乙個無法衡量的天文數字),這樣chord環上的node就會非常稀疏地分布在chord環上,理論上應該是隨機分布,但如前面一致性雜湊的討論,假設節點數量不多,分布肯定是不均勻的,能夠考慮新增虛擬節點來新增其平衡性,假設在節點較多(比方大型的p2p網路有上百萬的機器)就不必引入虛擬節點。

非常顯然,不論什麼查詢僅僅要沿chord環一圈結果肯定能夠找到,這種時間複雜度是o(n),n為網路節點數,但對乙個上百萬節點,且節點常常增加、退出的p2p網路來說,o(n)是不可忍受的,因此chord提出了以下非線性查詢的演算法:

每乙個節點都維護乙個finger表,該錶長度為m(m就是位數,在chord中為160),該錶的第i項存放節點n的第(n+2i-1) mod 2m個successor(1<=i<=m)

每乙個節點都維護乙個predecessor和successor列表,該列表的作用是能高速定位前繼和後繼,並能週期性檢測前繼和後繼的健康狀態

就是說存放的successor是按2的倍數等比遞增,自所以取模是由於最後的節點的successor是開始的幾個節點,比方最大的乙個節點的下乙個節點定義為第乙個節點

資源key儲存在以下的node上:沿chord環,hash(node)>=hash(key)的第乙個node,我們稱這個node為這個key的successor

給定乙個key,按以下的步驟查詢其相應的資源位於哪個節點,也就是查詢該key的successor:(假如查詢是在節點n上進行)

從直覺上來說,上次查詢過程應該是指數收斂的,相似二分法的查詢,收斂速度應該是非常快的;反過來,查詢時間或路由複雜度應該是對數即的,在以下我們會證明這一點。

下圖表明了節點n1查詢節點n53的過程,還是很快的:

對乙個演算法而言,收斂性是至關重要的,假設沒有收斂性做保證,在程式上化再多的心思也是徒勞。在證明之前,我們再強調3點:

這裡要區分是key的successor還是節點n的successor,同一時候要注意近期匹配原則。

假如節點n的finger表中的第i個successor與key的距離近期,則滿足:key處在第i項與第i+1項中間

記第i項為j,第i+1項為p

而:j = n + 2i-1

p = n + 2i

節點n與key的距離應該處在n與j和p的中間,即 j-n(1) 2i-1i

(2) 而j與key的距離最大為j與p的距離 j-hash(key) i-1

也就是說j與key的距離,小於n與key的距離,而且該距離小於n與key距離的一半,這樣我們保證每次迭代,與key的距離都會收斂,而且至少按2的指數收斂,也就是折半查詢。

至此,我們理論證明了chord的收斂性。

事實上chord演算法能夠全然轉換為乙個數學問題:

在chord環上隨意標記個點作為node集合,隨意指定node t,從隨意的node n開始依據chord查詢演算法都能找到節點t。

為什麼能這麼轉換呢?由於僅僅要找到了key的直接前繼,也就算找到了key,全部問題轉化為乙個在chord環上通過node找node的問題。這樣,這個題就立即變的非常奇妙,假如我們把查詢的步驟記錄為路徑,又轉化為隨意2個節點之間存在一條最短路徑,而chord演算法事實上就是構造了這樣一條最短路徑,那這種路徑會不會不存在呢?不會的,由於chord本身是乙個環,最差情況能夠通過線性查詢保證其收斂性。

chord冗餘性:

所謂冗餘性是指chord的finger表中存在無用項,那些處在node n和其successor之間的項均無意義,由於這些項所代表的successor不存在。比方在n1的finger表中的第1~5項均不存在,故都指向了n18,至少第1~4項為冗餘資訊。

一般說來,假如chord環的大小為2m,節點數為2n,假如節點平均分布在chord環上,則任一節點n的finger表中的第i項為冗餘的條件為:n+2i-1

m/2n =>2i-1

<2m-n =>i 冗餘度為:(m-n+1)/m=1-(n-1)/m,一般說來m >>n,所以chord會存在非常多的冗餘資訊。假如,網路上有1024個節點,即n=10,則冗餘度為:1-(10-1)/160≈94%。所以非常多**都指出這一點,並覺得會造成冗餘查詢,減少效能。事實上不然,由於這些冗餘資訊是分布在多個node的finger表,假設採取適當的路由演算法,對路由計算不會有不論什麼影響。

至此,我們已經完整地討論了chord演算法及其核心思想,接下來要討論的是chord的詳細實施。

Chord演算法(原理)

chrod 演算法是p2p中的四大演算法之一,是有mit 麻省理工學院 於2001年提出,其他三大演算法分別是 chord的目的是提供一種能在p2p網路快速定位資源的的演算法,cord並不關心資源是如何儲存的,只是從演算法層面研究資源的取得,因此chord的api就簡單到只有乙個set get。ch...

Chord演算法(原理)

分類 分布式演算法 2010 12 06 23 33 7490人閱讀收藏 舉報演算法 網路p2p 儲存雲計算優化 目錄 chrod 演算法是p2p中的四大演算法之一,是有mit 麻省理工學院 於2001年提出,其他三大演算法分別是 chord的目的是提供一種能在p2p網路快速定位資源的的演算法,co...

Chord演算法(原理)

chrod 演算法是p2p中的四大演算法之中的乙個,是有mit 麻省理工學院 於2001年提出,其它三大演算法各自是 chord的目的是提供一種能在p2p網路高速定位資源的的演算法,cord並不關心資源是怎樣儲存的,僅僅是從演算法層面研究資源的取得,因此chord的api就簡單到僅僅有乙個set g...