未來已來,騰訊AI計算網路

2021-09-11 11:03:23 字數 3275 閱讀 7062

毫無疑問,人工智慧是近年it界最火的研究方向,特別在2023年alpha go這一標誌性事件後,國內外科技巨頭持續加大對人工智慧的投入。目前,人工智慧的主要方向如影象識別、語音識別等等都是通過機器學習的方式,借助強大的計算平台對海量資料進行分析、計算,隨著資料量的增長,單機效能已逐漸無法滿足計算的需求,需要使用高效能計算(hpc, high performance computing)集群來進一步提公升計算能力。

hpc集群是將多個計算節點組織在一起協同計算的分布式系統,它一般使用iwarp/roce/ib等rdma(remote direct memory access)技術來完成計算節點記憶體間資料的快速交換。如圖1所示,rdma網絡卡可以從傳送節點位址空間中取出資料,直接傳送到接收節點的位址空間中,整個互動過程無需核心記憶體參與,從而大大降低了伺服器側的處理時延。同時,網路作為hpc集群的一部分,任何傳輸阻滯都會造成計算資源的浪費。為了最大化集群計算能力,通常要求網路在10us內完成rdma流量的傳遞。因此,對於支撐hpc的網路來說,時延是影響集群計算效能的首要指標。

在實際部署中,影響網路時延的主要因素有:

圖1 rdma互聯架構

硬體時延。網路裝置**、**跳數以及光纖距離都會影響網路時延,優化方案是盡量使用兩級」fat-tree」減少網路**層級,公升級網路速率以更高的波特率**資料,以及部署低時延交換機(最低0.3us);

網路丟包。當網路由於擁塞造成緩衝區溢位丟包,伺服器側需要重傳整個資料段,造成時延的嚴重惡化。常用解決方案有:通過增加交換機快取、網路頻寬來提高扛擁塞能力,進行應用層演算法優化規避incast場景減少網路擁塞點,以及部署流控技術通知源端降速以消除擁塞等。

資料中心網路硬體環境相對固定,依靠公升級硬體降低時延的效果非常有限,更多還是通過減少網路擁塞來降低時延。因此對於hpc網路,業界更多聚焦在」無損網路」的研究上,目前較成熟的解決方案有有損網路配合流控協議,和工業無損網路兩個方向。

乙太網採用「盡力而為」的**方式,每個網元盡力將資料交給下游網元,而不關心對方的**能力,這樣就可能造成下游網元的擁塞丟包,因此,乙太網是一種不保證可靠傳輸的有損網路。資料中心中多採用可靠的tcp協議來傳遞資料,但乙太網rdma報文多為udp報文,這就需要部署快取管理、流控技術減少網路側丟包。

pfc(priority flow control)是一種基於佇列的反壓協議,擁塞網元根據通過傳送pause幀通知上游網元降速來防止緩衝區溢位丟包,在單機場景下,pfc可以快速、有效的調節伺服器速率來保證網路不丟包,但是在多級網路中,就可能出現線頭阻塞(如圖2)、不公平降速、pfc風暴等問題,而且當有異常伺服器向網路中注入pfc報文時,還可能造成整個網路癱瘓。因此,在資料中心開啟pfc,需要通過對pause幀進行嚴格的監控、管理,以保證網路的可靠性。

圖2 pfc的線頭阻塞問題

ecn(explict congestion notification)是基於ip的端到端流控機制。

圖3 ecn降速過程

如圖3所示,當交換機檢測到有埠快取占用,會在**時將報文的ecn欄位置位,目的端網絡卡根據報文特徵生成通告報文,精確通知源端網絡卡降速。ecn避免了線頭阻塞問題,能夠實現流級別的精確降速,但由於其需要網絡卡側生成反壓報文,響應週期較長,因此通常作為pfc的輔助手段,用來減少網路中pfc的數量,如圖4所示,ecn應具有更小的觸發閾值,在pfc生效前完成流量的降速。

圖4 pfc和ecn的觸發時間

除了主流的大快取、pfc、ecn,業界還提出了基於rdma欄位的hash、大象流的整形、基於佇列長度的hash演算法drill、頻寬換快取演算法hull等解決方案,但這些方案大多需要網絡卡、交換晶元的支援,短期較難規模部署。

圖5 ib流控機制

infiniband是專為高效能計算、儲存設計的互聯架構,完整定義了一到七層協議棧,具有低時延、無損**的特點。如圖5,ib網路採用基於」credit」的流控機制,傳送者在鏈路初始化時為每個佇列協商初始credit,標明了能向對端傳送的報文數,接受者根據自身的**能力,實時同時傳送者重新整理每個佇列的credit,當傳送者credit耗盡,則停止發包。由於網元、網絡卡都必須得到授權才能發包,因此ib網路不會出現長時間擁塞,是能夠保證可靠傳輸的無損網路。ib提供了15個業務佇列來區分流量,不同佇列的流量不會出現線頭阻塞。同時,ib交換機採用」cut-through」**模式,單跳**時延約0.3us,遠低於乙太網交換機。

計算網路中的計算節點作為資源池供整個公司各部門共同使用,這就使得網路面臨著多業務流量併發擁塞的問題。對於承載單一業務的網路,可以通過應用層演算法排程規避網路擁塞,但當多業務共享網路時,就不可避免出現多業務流量的併發擁塞,即使有佇列保護、流控機制等手段減少網路丟包,也會由於伺服器的降速造成集群計算能力損失。同時,pfc的缺陷也不適宜在多級網路中開啟,需要限制其生效範圍。因此,我們的設計思路是:

從物理上隔離業務,採用高密裝置作為接入裝置,盡量將乙個部門的節點集中在乙個接入裝置下,限制跨裝置集群的數量;

只在接入裝置開啟pfc保證快速反壓,在全網開啟ecn保護跨裝置集群;

對於小量跨裝置集群,圍棋提供足夠的網路頻寬減少擁塞,並採用大快取交換機解決ecn反壓周期長的問題。

綜合高密接入、大快取、端到端反壓等需求,hpcv3.0架構選擇了使用bcm dune系列晶元的框式交換機作為接入裝置。

圖6 hpc3.0架構

如圖6所示,hpc v3.0為兩級clos架構,匯聚裝置lc、接入裝置la均為bcm dune晶元的框式交換機,每台la最多可接入72臺40g/100g伺服器,考慮到當前大部分應用的集群規模在10~20個節點,並且未來計算節點效能提公升、演算法的優化也會進一步限制集群規模的增大,因此72臺足以滿足單個業務的計算需求。dune線卡支援4gb的快取,能夠快取ms級擁塞流量,同時支援基於voq的端到端流控方案(圖7),能夠借助pfc實現同機框下伺服器的精確降速。雖然框式交換機的**時延(4us)會大於盒式交換機(1.3us),但考慮到減少了多級**、丟包、擁塞帶來的時延惡化,並不會影響集群效能。

圖7 dune晶元端到端流控

從成本上看,雖然框式交換機單埠成本高於盒式交換機,但是由於單la的節點已可以滿足大部分計算需求,跨la集群需求有限,減少了互聯模組,反而比傳統盒式接入、一比一收斂比的方案成本更低。

在很長一段時間,網路都不是資料中心效能的瓶頸,基於」大頻寬」的網路設計可以滿足業務應用需求。但近些年來,伺服器技術的快速發展帶動了資料中心計算、儲存能力的飛速提高,而roce、nvme over fabric等rdma技術將資料中心的效能瓶頸轉移到了網路側。特別是對於hpc、分布式儲存、gpu雲、超融合架構這些基於rdma的新型應用來說,網路時延已經成為制約效能的主要因素。因此,可以預見到,未來資料中心的設計目標會逐步從頻寬驅動走向時延驅動,如何構建低時延、無損的大型乙太網資料中心,並建立完整的快取、時延監控機制,會是我們長期探索的目標。

ai會對我們的生活帶來什麼影響?

AI 未來已來 把握現在

近幾年來,人工智慧 ai 一直都是各大 的熱點話題,機器學習 深度學習和人工智慧都頻繁的出現在各種文章中。就算是在平時和朋友的聊天中,也經常會聊到ai的話題。然而,除了ai的熱度,究竟什麼是人工智慧 機器學習 深度學習?這三者之間又有什麼關係呢?卻鮮有人能分的清楚,下面就先來個科普,說下這個話題。人...

演講實錄丨黃偉 AI已來,未來已來

ai已來,未來已來 黃偉雲知聲董事長 語音識別技術應用專家 黃偉 大家下午好!非常感謝邀請。我覺得前面山世光對公司有乙個非常好的定位,介於學術和產業之間。我可能是唯一乙個做雲技術,第二我們可能長期在工業界。今天人工智慧熱潮十多年比較冷的乙個方向,這樣我更多從工業界角度來看,我們可能對ai的看法和認知...

2018 未來已來

2017年11月15日,infor大中華區使用者暨合作夥伴峰會在上海外灘w酒店成功舉辦。本次峰會以 聚勢謀遠,協力必達 為主題,近三百位來自中國大陸,香港和台灣各行各業的重要客戶代表 業界精英 行業專家 記者及合作夥伴應邀出席。infor向與會者分享了infor全球戰略 雲業務及infor birs...