京東如何處理資料中心網路對於應用效能的影響

2021-08-07 22:32:16 字數 2525 閱讀 5346

隨著現代資料中心的規模越來越大,網路拓撲和路由**變得越來越複雜。從前的資料中心使用傳統的大型機和小型機,網路規模相對小和簡單,一般的機框式交換機就能滿足網路的需求。

隨著clos集群架構的普及,標準的x86伺服器集群以低成本和高擴充套件性逐漸取代大型機和小型機而成為資料中心的主流。

下圖就是乙個典型的基於clos架構的資料中心解決方案,在這樣的大規模網路中,如何能讓資料在傳輸過程中能以最快的速度從傳送端到接收端,這條通路直接影響到應用的效能。

京東it資源服務部舉辦的未來資料中心核心技術研討會上,京東人工智慧,大資料,雲計算團隊的多位研發總監,技術骨幹人員,針對網路影響應用效能的話題,展開了深入的討論。

網路影響應用效能的乙個原因,是處理器的效能越來越高,應用到應用之間,點對點延遲越來越低。

比如在高效能計算和ai應用中用到的mpi 協議,點對點傳輸的延遲可以小於1微秒(1us), 而現在多數交換機的單個hop延遲超過了3微秒。

從上面那張拓撲圖中可以看到,同一資料中心需要經過5個hop(從rack tor 到row spine,到data center spine, 再到row spine,到rack tor),這需要消耗15微秒的延遲。

1微秒比15微秒,在執行應用的過程中超過90%的時間消耗到了網路上,這種情形還不包括網路上有任何丟包導致的重傳。

1 如何減小網路對於應用效能的影響

如果交換機的效能能從3微秒降低到0.3微秒,這樣的話,整個網路的延時會降低到原來的十分之一。

有的交換機**效能不穩定,在不同的包大小情況下,會有不同的**效能,在小包的情況下可以有低的延遲,在大包的情況下延遲會大幅增加,導致網路效能不可**。

有的交換機**效能可以不隨著包大小的變化而波動,一直維持在低延遲的狀態。

如果出現這種不公平現象,會導致網路**速度不均,出現先到後得的現象。

在大型的網路中,擁塞是不可避免的,如何能有效的管理擁塞和降低擁塞帶來的丟包和重傳,是現在網路管理中非常重要的乙個技術難點

在網路中,降速慢傳和丟包重傳是兩種被用來解決擁塞的方式,實踐證明,慢傳比丟包重傳更能有效的解決擁塞問題。

2 對網路擁塞的管理和控制

當多對一的情況發生時,為了減少丟包導致的重傳,我們需要採取措施來降低傳送端的速度,來減少對交換機buffer的壓力。

在網路的擁塞管理和控制上,業界通常採用pfc(priority based flow control)和ecn(explicit congestion notification)兩種方式來實現。

在通常無擁塞情況下,交換機的入口buffer不需要儲存資料。當交換機出口(egress port)的buffer達到一定的閾值時,交換機的入口buffer開始積累,當入口buffer達到我們設定的閾值時,交換機入口開始主動的迫使它的上級埠降速。

由於pfc是基於優先順序的控制,所以這種反壓可能導致同樣優先順序的應用受到影響。

當交換機的出口buffer達到設定的閾值時,交換機會改變資料報頭中的ecn位來給資料打上ecn標籤,當帶ecn標籤的資料到達接收端以後,接收端會生成cnp(congestion notification packet)並將它傳送給傳送端,cnp包含了導致擁塞的flow或qp的資訊,當接收端收到cnp後,會採取措施降低傳送速度。

可見ecn是基於tcp flow或rdma qp的擁塞控制機制,它只對導致擁塞的flow或qp起作用,不會影響到其他的應用。

京東it資源服務部的硬體系統部技術負責人王中平提出:在管理網路的擁塞中,應該綜合應用pfc 和ecn 兩種方式,來有效的實現效能和操作性的平衡。具體的實施過程中可參考以下推薦:

京東it資源服務部負責人呂科說:「如何降低網路對於應用效能的影響是乙個非常複雜的問題,也是所有的資料中心管理者一直在力求解決的問題。」

「最好的方式就是我們的網路人員和應用人員一起來討論應用對於網路的需求,我們專業的技術團隊會針對需求,測試和選擇最合適的網路產品和網路方案。」

邊緣網路和物聯網如何重塑資料中心

我們所知道的網際網路反映了具有啞終端的舊主機設計 資料路徑幾乎完全適用於從中心位置進入網路的資料。無論是你的終端是iphone還是綠色文字,都沒什麼區別,因為快速管道一直處於停機狀態,只有相對較少的資料被傳送出去。物聯網的到來有可能會扭轉局面。物聯網的出現意味著有大量的端點裝置,它們不是資料的消費者...

雲時代如何簡化資料中心網路運維?

sdn,在經歷了猶豫彷徨 百家爭鳴之後,目前已成為企業cto的堅定選擇。sdn時代的網路展現出兩面性 一方面讓客戶使用更加簡單,另一方面卻讓運維更加複雜。而當前,整個行業的目光多聚焦在前者而忽略了後者。隨著sdn的部署如火如荼,一絲憂患也隱隱浮現。2015年12月,管理行業研究機構ema enter...

支撐AI的高效能資料中心網路架構如何設計?

近日,工信部印發 促進新一代人工智慧產業發展三年行動計畫 2018 2020年 意在加快人工智慧從戰略到落地,推動人工智慧和實體經濟深度融合。在新工業革命的背景下,大資料 計算力 演算法等快速迭代,正驅動人工智慧進入新階段。2017年q3,全球ai公司融資金額突破77億美元,是2012年的70餘倍。...