浪潮發布業界最高GPU密度的SR AI整機櫃

在不久前結束的2017浪潮雲資料中心全國合作夥伴大會（ipf）上，浪潮秉承堅持圍繞"計算+"戰略，進一步明確業務重心，聚焦智慧型計算，發展開放融合的計算生態，建立智慧型計算市場的領導力。

智慧型計算的未來在商業應用，隨著人工智慧應用的快速發展，ai所需的計算力也急劇攀公升。此前，浪潮就已在ai計算平台、架構領域布局，擁有業界完整的支援2、4、8 gpu卡的異構超算伺服器陣列。而本次ipf上，浪潮發布了業界最高密度的、單機點支援16塊gpu卡的sr-ai整機櫃，進一步優化了ai計算硬體架構，改變原有cpu-gpu緊耦合狀態，實現gpu資源的靈活池化擴容。

人工智慧成為未來社會發展重要動因

更複雜的ai應用呼喚更強大的計算平台

深度學習概念和淺層學習演算法已經被提出多年，而人工智慧近年才開始逐漸公升溫，原因是人工智慧技術的進步受限於計算平台的效能和資料量的積累。舉個例子，從ibm深藍戰勝卡斯帕羅夫，浪潮天梭戰勝五位象棋大師，再到谷歌alphago戰勝圍棋冠軍李世石，解決問題的博弈樹空間擴大了237數量級，這其中需要更優化的演算法，也需要更強大的計算平台來支撐實時運算。

除了ai遊戲，在現實生活中人工智慧的應用也越來越廣泛和複雜，從人臉簽到打卡，到行動軌跡追蹤，再到無人駕駛汽車，更複雜的ai應用呼喚更強大的計算平台。傳統的單機單卡、2卡甚至8卡已經不能滿足多樣化的業務需求，浪潮sr-ai整機櫃伺服器以單節點16卡的更高密度，滿足當下快速膨脹的ai計算能力需求。

sr-ai整機櫃伺服器

更高密度+資源解耦，10倍於傳統ai計算裝置效能

首先，傳統的ai計算裝置集群需要通過高速網路實現資料的互動，著會帶來us級以上的延遲，而sr-ai整機櫃中gpu box間的互聯是通過pci-e交換機來實現，並借助gpudirect rdma技術可以大幅下降跨節點gpu間的通訊延遲，能夠實現ns級網路延時。

第二，sr-ai整機櫃的i/o box單節點即可實現支援16個gpu的超大擴充套件，並且可以通過pci-e交換機實現4個box、64塊gpu的級聯，峰值處理能力達到為512tflops。

第三，sr-ai整機櫃的gpu資源擴充套件無需同步配置高成本的it資源（比如ib交換機），成本可優化5%以上，並隨著規模上公升成本優勢越明顯。

高效開發框架+演算法協同優化，ai計算效率最大化

與 cpu 少量的邏輯運算單元相比，gpufpgamic這種協處理加速裝置整個就是乙個龐大的計算矩陣，可實現 10-100 倍應用吞吐量。但同時，這種龐大的並行能力需要付出代價：需要較強的軟體開發能力和演算法優化能力。

為此，浪潮將高效深度學習框架caffe-mpi開源，與眾多開發者共同優化，為深度學習的使用者提供了更便捷、更高效的應用手段。浪潮caffe-mpi能夠在保證正確率相同的情況下，在4節點下16卡的效能較單卡提公升13倍，並增加了對cudnn庫的支援，使程式開發人員能夠輕鬆實現高效能深度學習**的開發。

在演算法方面，此前浪潮與客戶在gpu加速加速流量特徵分析技術開展合作，通過軟硬體和演算法的協同優化，使訓練24萬樣本的時間單節點4gpu相對於單gpu加速3倍，單機4gpu卡程式效能較原始版本加速270倍。

原文發布時間為：

2023年5月11日

浪潮發布業界最高GPU密度的SR AI整機櫃

WiFi業界該如何適應並迎接物聯網浪潮的全面來臨

Cray XC50提供了最高密度的效能

Arkeia發布業界首個用於備份的虛擬裝置

浪潮發布業界最高GPU密度的SR AI整機櫃

WiFi業界該如何適應並迎接物聯網浪潮的全面來臨

Cray XC50提供了最高密度的效能

Arkeia發布業界首個用於備份的虛擬裝置

相關推薦