阿里雲高效能計算今起商用 平台受熱捧

2021-09-23 04:56:37 字數 2559 閱讀 8067

本文講的是阿里雲高效能計算今起商用 平台受熱捧【it168 雲計算】如果把普通計算機的運算比作**走路,那麼高效能計算機則可以稱為計算機界的運載火箭,其計算速度能達到每秒千萬億次,能計算普通pc機和伺服器不能完成的大型、複雜課題,在諸如天氣預報、基因、核工業、軍事、航天等高科技領域都可以見到高效能計算機的身影。

高效能計算機是乙個國家科技實力的象徵,人們熟知的「天河一號」、「天河二號」就是我國自行研製的高效能計算機的代表。

中國首個雲上高效能計算平台受熱捧

12月15日,阿里雲基於公共雲平台的高效能計算產品hpc正式對外商用,使用者可通過官網購買gpu伺服器例項。這也是中國首個雲上高效能計算平台。

早在今年9月阿里雲hpc對外公測期間,上百家使用者找到阿里雲申請使用併排起長隊,每週新增排隊使用者比測完使用者還多,客戶型別涵蓋深度學習、科研、金融甚至國家超算使用者。

據了解,阿里雲hpc每個計算集群配備2個gpu+2個cpu+128g記憶體+13t儲存資料,單機單精度浮點計算能力達到11t flops。同時配備128g記憶體,13t本地盤儲存資料,雙千兆上聯網路等。

「我們會給使用者專屬100%物理機,cpu、gpu不會發生爭搶,保證無效能波動,沒有虛擬化開銷,也會有任何硬體功能的閹割。」 阿里雲hpc產品負責人長仁強調。

據測算,假如有200萬張需要學習,用一台雙路e5-2650 v2的伺服器訓練需要16天時間,而如果用阿里雲雙gpu物理機僅需要1天。

為什麼不使用大量cpu而要用gpu?這兩者有何區別?

長仁介紹,單核cpu的理論浮點效能和gpu目前差距約兩個數量級,多核cpu比如雙路16核,和gpu相差8倍。

深度學習是浮點計算密集應用,目前廣泛使用gpu。假如單純堆砌大量cpu會造成網路通訊延遲,堆得越多速度越慢。而單機gpu計算能力密度高,所以業界普遍使用gpu。

世界高效能計算top500很多採用gpu加速,比如我國首個奪取全球第一名的超級計算機「天河一號」。

阿里雲的gpu合作夥伴是nvidia。nvidia全球副總裁、psg兼雲計算業務總經理ashok pandey表示:「深度學習是nvidia重要的戰略方向,未來我們將發揮自身在深度學習技術平台的優勢和在全球深度學習領域積累的應用經驗,與阿里雲一起為中國致力於深度學習的新興企業提供更強大的支援。」

開放全世界唯一kepler架構gpu原生彙編器

高效能計算不僅需要硬體設施,更需要匹配「軟實力」,才能最大限度發揮硬體效能。

長仁介紹,阿里雲不僅提供硬體和基本系統,更為hpc準備了docker例項、排程系統、監控平台,以及針對深度學習的訓練、**中介軟體和工具。

尤其值得一提的是,阿里雲hpc主頁(hpc.aliyun.com)開放了全世界唯一的kepler架構gpu原生彙編器及cuda占用計算器,這是阿里內部效能調優的「獨門秘技」。阿里用這款彙編器優化出了目前在kepler架構gpu上最快的卷積、矩陣乘法實現。

▲alexnet第二層卷積單精度量化效能

專注於計算機視覺識別的明星創業公司格靈深瞳hpc負責人張洋表示:「阿里雲hpc產品效能強勁,配置簡單,作為線上**服務平台是很棒的選擇。期待阿里雲自己的深度學習軟體框架上線。」

塗鴉技術架構師柯都敏也稱讚阿里雲「強勁的hpc能快速解決我們對資料訓練和線上業務的需要」。

只有使用者才能更好地服務使用者

領先的網際網路巨頭如google、facebook都是gpu的深度使用者。同樣,阿里內部也部署了大規模的gpu異構計算集群,服務於所有內部應用。

在對外提供服務之前,阿里雲已經在高效能計算領域實踐多年,從裝置選型、准入測試、運維監控,到系統架構、效能優化等,整個鏈條都有深入積累。

長仁認為,脫胎於阿里「母體」的hpc不僅是一款產品,更是一種服務能力,這是阿里雲的核心競爭力。

這種能力也得到了使用者的認可。利用深度學習搜尋時尚商品的創業公司dress+ vp嚴布江就評價阿里雲hpc團隊「業務技能精湛,服務周到熱情」。

從一些細節能看出長期積累的重要性。比如同樣是利用gpu,但不同的公司會在具體技術選擇上產生差異,小到如何插卡保證硬體效能的發揮都大有學問。

比如阿里雲選擇了nvidia k40,k40的gk110b是kepler架構gpu單核效能最強。在深度學習應用中,關鍵的卷積計算、矩陣乘法計算在開啟或者關閉boost下,k40表現最出色。  

市場上另外一些方案則會選擇nvidia k80。k80是兩個gk210核心,從使用者的角度看雖然k80是1張卡,但是兩個裝置。每個裝置的計算能力和k40比還有差距,使用者要用好兩個裝置,相互配合完成乙個任務需要額外的開發,使用難度會提高。

專注於人臉識別的創業公司face++許欣然對k40的效能表示認同,他表示「阿里雲hpc伺服器效能優異,發揮了雙卡k40的極致效能」,另外「運維出色,穩定性非常強」。

長仁表示,阿里雲既是阿里內部使用者的服務者,也同樣是使用者,現在更是雲上服務的提供者。只有經過實踐才能更好地服務外部客戶。

原文發布時間為:2015-12-15 

張苗苗

阿里雲彈性計算平台

雲計算 cloud computing 是分布式處理 distributed computing 並行處理 parallel computing 和網格計算 grid computing 的發展,或者說是這些電腦科學概念的商業實現。雲計算的基本原理是,通過使計算分布在大量的分布式計算機上,而非本地計...

阿里雲彈性高效能計算產品商業化正式發布

摘要 來自全國500多家企業申請試用,結合客戶的體驗需求和反饋意見,不斷地改善和打磨,彈性高效能計算商業版有了很大的優化,在產品效能和體驗上都有全新的公升級。原文 彈性高效能計算 e hpc 基於阿里雲基礎設施,為使用者提供一站式公有雲hpc服務,面向教育科研,企事業單位和個人,提供快捷,彈性,安全...

為什麼選阿里雲,阿里雲計算服務平台優勢

為什麼選擇阿里雲伺服器?1 穩定 阿里雲伺服器雲盤資料可靠性不低於99.99 如果發生伺服器宕機自動遷移,災難恢復 阿里雲提供 異地雙活 和 兩地三中心 的災備解決方案,當一處系統因意外 如火災 等 停止工作時,整個應用系統可切換到另一處,繼續對外提供服務。2 安全 防ddos系統 安全組規則保護,...