基於RDMA和NVM的大資料系統一致性協議研究

2021-10-10 14:16:22 字數 1305 閱讀 5688

本文**於《大資料》,作者吳昊, 陳康等。

摘要:分布式儲存系統以及計算系統是構造大資料處理系統的基礎。系統的高可用性是任何乙個分布式系統的基石,高可用技術一般依賴於一致性協議。

本文討論了經典的非拜占庭的分布式一致性協議以及新技術發展下的rdma通訊協議與nvm儲存介質,通過rdma和nvm的結合獲得了更高效能的高可用系統。

改進了一致性協議,使其能夠更好地利用rdma與nvm的特性。實現的系統在保證系統資料一致和可用的同時,有效地提高了協議實現的效能。

通過實驗表明,相比於現有的系統,實現的系統能夠得到40%的效能提高。

**主要涉及知識點:

本文首先對一致性協議、rdma概念、nvm儲存技術進行描述。再指出rdma和nvm結合的一致性協議,以及出現協議不一致,故障恢復的方法。

最後,使用使用c++語言對修改後的multipaxos協議進行了實現,同時使用 基於infiniband網路設施的伺服器集群對實現的一致性系統進行測試。

集群由10臺伺服器構成,每台伺服器的配置見表3。其中,筆者使用5臺伺服器作為一致性系統的服務端,另外5臺伺服器作為客戶端,負責和服務端

進行通訊並傳送請求。由於目前市面上沒有可用的nvm硬體,因此使用記憶體模擬測試,同時由於nvm的寫時延比記憶體高,因此在測試時,筆者修改了

centos核心,使得系統記憶體的寫時延增加150 ns,從而匹配nvm效能。主要從時延和吞吐量兩方面進行測試驗證。

測試結果如圖4所示。由於本文工作是單輪通訊協議,而dare是兩輪通訊協議,因此本文工作的時延比dare低。在時延測試中,當資料大小為8 byte時,單次提交指令的時延最低可達到6 μs,相比dare的9 μs時延來說約減少了33%。由於rdma操作的時延隨著資料大小的增加而增加,因此二者的時延也隨著資料大小的增加而增加。

圖4   時延和吞吐量測試結果

在吞吐量測試中,二者的吞吐量都隨著客戶端連線數量的增加而增大。dare協議在第二輪通訊中要比本文工作多傳送一輪日誌的尾指標,傳送資料量比本文多一些,因此本文工作的吞吐量要大一些。本文的協議中請求可以並行處理,而dare只可以等待前面的請求處理結束後才開始處理之後的請求。為了提高效能,dare在設計中使用了批量處理操作,將相同操作型別的請求打包到一起。隨著連線的客戶端數量增加,領導者伺服器接收到的請求也隨之增多,dare每一次批量處理後的資料大小也隨著增大。rdma的頻寬利用率是隨著傳輸資料大小增加而增加的,因此本文工作和dare的吞吐量差距也隨著客戶端連線數的增加而減小。

基於大資料的精準營銷

在大資料時代到來之前,企業營銷只能利用傳統的營銷資料,包括客戶關係管理系統中的客戶資訊 廣告效果 展覽等一些線下活動的效果。資料的 僅限於消費者某一方面的有限資訊,不能提供充分的提示和線索。網際網路時代帶來了新型別的資料,包括使用 的資料 地理位置的資料 郵件資料 社交 資料等。大資料時代的企業營銷...

基於大資料的工業感知和網路控制技術綜述

1工業感知和網路控制 隨著物聯網技術的發展,工業感知技術也不斷進行進步,物聯網包含感知層 網路層 應用層,所謂工業感知和網路控制,就是在工業生產過程中通過各種感測器對各個工業環節進行監測,獲取資料,再通過區域網路將資料傳輸到應用端進行處理分析,最後對生產環節的優劣進行判斷,最後做出決策,將動作施加在...

BABY夜談大資料 基於內容的推薦

起因 這個系列主要也是自己最近在研究大資料方向,所以邊研究 開發也邊整理相關的資料。網上的資料經常是碎片式的,如果要完整的看完可能需要同時看好幾篇文章,所以我希望有興趣的人能夠更輕鬆和快速地學習相關的知識。我會盡可能用簡單的方式去簡介一些概念和演算法,盡可能讓沒有工科基礎的人也能大致了解。ps 由於...