效能提公升數倍 IBM光譜計算搞定海量資料處理

2021-09-23 06:39:53 字數 2475 閱讀 9322

一直以來,ibm給人呈現出的形象就是高大上的前瞻者,在大資料等方面一直引領著行業發展。近兩年ibm還提出了認知商業概念,將企業級計算相關應用推向了高潮。

spectrum computing(光譜計算)是ibm剛剛推出的產品,它是一套全新智慧型資源與工作負載管理軟體,能使企業更為輕鬆地挖掘資料價值,提公升效能密集型大資料分析工作負載和機器學習的速度。該技術將為各行各業的客戶提供支援,比如通過基因組排序實現更好的癌症**、輔助工程師設計出具有奪冠實力的一級方程式賽車、幫助銀行家面向潛在客戶推出個性化金融服務。

ibm整合platform推出光譜計算

ibm軟體定**決方案大中華區銷售經理 周立暘

platform computing之前筆者也曾接觸過,這是一家技術實力很強的企業,在分布式計算等方面有著較深造詣。當時給人留下深刻印象的案例就是空中巴士以及各個**交易所的分布式系統,非常強大。而在2023年ibm正式收購了platform computing,這些年來將其技術不斷融入ibm,使其成為了現在的spectrum computing(光譜計算)。

談到光譜計算,ibm軟體定**決方案大中華區銷售經理周立暘認為:傳統來說,往往計算和儲存是分離的,隨著新的認知型應用的發展,不僅需要水平擴充套件,實際上也是應對整個認知商業的大環境。我們不僅要儲存、管理海量的資料,讓這些資料真正產生價值,還是要對它進行有效應用和分析。在去年發布光譜儲存家族軟體定義儲存的基礎上,我們在今天發布spectrum computing,實現軟體定義的平台,有助於使用者、企業在軟體定義儲存的基礎上通過軟體定義計算對海量的非結構化資料進行充分的利用,從而為企業的數位化轉型找到更多的價值點,也找到新的應用。

spectrum computing包含六大產品,提供強大整合管理能力

產品方面,據周立暘介紹光譜儲存有六大產品,這六大產品可以單獨作用,也可以互相結合,spectrum computing目前包含三大產品。乙個是lsf,主要針對高效能和批處理應用,高效能計算在國內外很多製造業、電子行業、生命科學領域用的比較多,同樣在企業裡面也有大量批處理應用。

此外還有symphony,主要針對大資料和高效能分析,一方面完全相容所有hadoop的介面,另一方面提供了自己的api,使得高效能分析應用不經過修改、只要經過這個api就可以在一台機器乃至幾千臺機器上動態地執行。

ibm最新發布的光譜計算中還包含全新的spectrum conductor。在應用方面,針對了所有新型的雲應用,像現在spark記憶體計算方式非常流行,還有新的nosql資料庫,針對這些雲型別的應用,需要有乙個工作負載管理的產品。conductor是可擴充套件的融合架構,不僅僅是水平擴充套件的軟體定義的元件,它當中整合了軟體定義計算和軟體定義儲存,這包含了分布式檔案系統,也包含了怎麼樣把內部的資料和外部的雲資料整合起來進行管理的能力。這也是整個產品家族裡面最新的乙個產品。

未來,隨著軟體定義計算和軟體定義儲存的融合,ibm會增加更多的整合方案,推出更多針對水平擴充套件的軟體定義環境的融合架構的產品。

軟體定義讓企業使用者更容易實現擴充套件

周立暘認為軟體定義已經變得越來越重要。隨著企業資料量越來越多,不是單一工具就能夠滿足它認知商業的所有需要,可能需要各種各樣的工具,需要不同的nosql的db,需要記憶體計算、流計算對實時資訊作處理。每一種新型工具都是水平擴充套件的架構,對任何乙個企業來講都有五個到十個工具,可能對應採用傳統的方式就要五個到十個集群。集群本身的管理使用起來比單一系統複雜。隨著認知商業、雲計算應用的發展,企業內部集群應用越來越多,必然需要一種新型方式,把很多個集群整合成乙個,或者把乙個雲或者乙個集群當做很多個集群來用,這正好是軟體定義基礎架構所解決的問題。

據周立暘介紹,ibm也有這樣的客戶,無論是國內、國外,國外有個金融保險公司,在乙個平台上執行了30多種不同的分布式應用,包括開源軟體,包括商用的客戶行為分析、spss應用等。對於使用者來講,這種方式比自己建立很多個不同的集群更好,每個集群隨著業務的增長還需要不斷地擴充套件,不同的集群還需要訪問下面的資料,這個複雜性的話隨著應用的增加而成乙個脊柱型的增長,必然最後會採用軟體定義的方式來管理所有分布式的應用。

科研、金融和電信開始應用光譜計算

應用方面,周立暘表示目前光譜計算在金融業、電信應用比較多,電信行業中資料量非常大,要用水平擴充套件的架構,因此很多用大資料分析的平台也在用光譜計算。生命科學行業,前段時間ibm剛剛辦了乙個會,請了清華大學國家蛋白質中心代表和大家分享。隨著生命科學的發展,它的資料量增加的非常多。清華大學的電子顯微鏡,大概資料產生速度是一天產生20多tb的資料,所以一定要通過水平擴充套件的架構。由於清華大學一棟教學樓的空間有限,現在這個集群要分在幾個不同的樓層裡面來,所以採用了ibm的軟體定義方式進行生命科學的分析平台。未來隨著認知商業的普及,相信行業覆蓋面會越來越多、越來越廣。

看似高大上的光譜計算目前已經開始應用到各個行業領域,採用軟體定義方式,能夠把整個集群平均利用率提公升到90%甚至更高,有五到六倍效率提公升。光譜計算給企業級應用帶來了質的飛躍,新技術帶來新革命,ibm繼續著他的探索之路。

格間計算效能提公升方案

一般情況下,如果報表中存在很多格間計算 即單元格之間的關聯計算 那麼通常會影響報表效能。這是因為 1 格間計算很難分步驟編寫,導致運算過程很難優化。2 格間計算可能需要多次遍歷單元格集才能完成運算。3 格間計算往往要利用較多隱藏格作為中間變數。而隱藏格除格值外,還記錄了很多與顯示相關的屬性值,比如 ...

Apache Hive走向記憶體計算,效能提公升26倍

apache hive 2.1 已於幾個月前發布,它引入了記憶體計算,這使得hive計算效能得到極大提公升,這將會影響sql on hadoop 目前的競爭局面。據測試,其效能提高約26倍。apache hive 2.1新引入了6大效能,包括 1 llap。apache hive 2.0引入了lla...

numpy使用MKL庫提公升計算效能

系統 gentoo linux 64bit,kernel 3.7.1 配置 intel r core tm i7 2670qm 在gentoo中安裝numpy scipy非常簡單,直接emerge就可以解決。但是預設鏈結的blas lapack庫效能非常差,在矩陣計算方面比matlab慢了不少。原因...