冷熱分治,DT時代的資料儲存必由之路

2021-09-30 22:56:03 字數 2675 閱讀 5257

**式增長的資料如何處理?

在一分鐘內,郵箱使用者總共傳送了2.04億封郵件,亞馬遜官網上的銷售額約達到了8.3萬美元,再說說社交網路上,facebook的使用者約推送了246萬條的內容,twitter使用者發推數量約為27.7萬條……

在這組數字表象的背後,不知道你有沒有發現需要哪些支撐?讓我們簡單算一下,按照目前3.2zb的資料量,需要至少4.5億台12盤位採用6t硬碟的伺服器來支撐。但是按照現有資料來看,全球執行的伺服器總量應該是5000萬台左右,這其中有近乙個量級的差距!而這是按照較高的儲存密度來算,何況有大量的伺服器是用於計算而非儲存!

據分析稱,全球產生的資料量中僅有1%左右的資料能夠被儲存下來!如何儲存更多的資料?最簡單方法當然是,採購更多的儲存介質--磁帶、光碟、硬碟、ssd等,但是如何選擇儲存介質則成為了另一大難點。

冷熱分治,浪潮如何處理海量資料

資料量的**式增長以及資料型別的日益細化,讓資料分級和冷熱資料分治成為降低單位容量資料成本、提公升資料儲存效率和密度的有效方式。在企業的資料中心中,只有10%~15%的資料是被經常訪問的,iops要求100k 級別,剩餘的則訪問頻率急劇下降,在10k甚至以下。既然需求不同,那麼是不是能夠將不同型別的資料儲存在不同的介質上,以最大化運用儲存的效率?

為了更進一步細分資料等級,能夠更好分配資源和提高收益,浪潮按照資料讀取的熱度,將資料分為寒帶、溫帶、**帶和熱帶資料,並通過不同速率的儲存介質和不同處理速度的cpu的配比,實現資料儲存的成本最優,使資料儲存更適合上層業務應用。

高iops滿足熱資料高速、頻繁讀取

隨著資料量的持續增加,單位時間內需要處理的請求越來越多,sata ssd也顯得力不從心,sata介面6gb/s的限制已經成為發揮ssd效能的瓶頸,因此各廠商將目光轉向擁有更高頻寬的pci-e。

目前主流的pci-e 3.0 x16的傳輸速度已經可達16gb/s,而最新的pci-e 4.0 x16將能夠達到32gb/s!實測資料顯示,採用了新的nvm ssd技術優化pci-e ssd的連續讀取和寫入速度已經達到驚人的2.8gb/s和2gb/s!iops已經突破450000,是sata ssd的6倍,單位iops成本降低71%!

經過測試,在熱資料處理應用中,採用pci-e加速,效能將提公升10倍,而投資將減少一半以上!

pci-e介面打破了ssd儲存速率上限,但其仍受到介面標準的限制。舉個例子,假如你有一輛豪車,時速能到300邁,在鄉間小道上,猶豫路窄且泥濘,你只能開到60邁,這就相當於sata ssd;過了好久,終於開到了高速,由2車道變成6車道,但是路上車多,最高速限制120公里,這就相當於採用ahci標準的pci-e ssd;又開了一段時間,已經遠離城市,來到荒無人煙的大草原,這裡的標準就是自由,限制車速的就是豪車本身。

當然,這個例子並沒有把nvme的特性解釋全面,其實相對於ahci,原生pci-e主控與cpu直連,並且精簡了呼叫方式,因此延遲大大降低。由於將佇列深度從32提公升至64000,nvme提公升了ssd的iops。另外,採用nvme標準後,解決了不同pci-e ssd之間的驅動適用性問題。

目前浪潮網際網路定製化伺服器sa5112m4、sa5212m4均可支援 nvme 。其中密度較高的1u機架伺服器sa5112m4可支援 4片 nvme ssd,提供 100k 級別 iops,滿足極熱資料的高併發訪問需求,完美解決被資料頻繁訪問的問題。

平衡的計算與儲存配比

對於**帶資料,sata ssd 的效能可以滿足,且在目前來看**與pcie ssd相比仍有一定的差距,因此對於每天訪問約幾十遍的資料可以使用sata ssd儲存。所以浪潮伺服器滿足單節點最多配置 8 塊 sata ssd,單盤提供 10k 級別的 iops 響應能力。而溫帶資料相比熱資料體量陡然增高,所以相比較需要成本更低的儲存方案,使用intel e5雙路伺服器+大容量sata硬碟是主流的配置。但是,溫帶資料儲存目前有了一種新的選擇。

去年3月,intel官方宣布了基於14nm的xeon首款單晶元產品,家族命名"xeon d"。xeon d基於broadwell-de架構,是真正的soc系統,不僅有處理器,還整合了記憶體、i/o等子系統,定位介於atom與xeon e3之間。

今年9月,浪潮在其第三屆網際網路應用技術峰會上,在業界率先發布了基於xeon-d soc處理器的一系列產品,專為溫資料儲存設計,低功耗和高整合度為構建高密度的雲資料中心提供支援。此前,浪潮已經擁有1u8盤、2u12盤、4u36盤等較為完整的資料分級儲存產品,這次發布的xeon-d新品,將為溫冷資料儲存提供了更多的選擇。

xeon-d產品同樣會在浪潮整機櫃伺服器sr中應用,在1u的空間內支援18塊3.5英吋硬碟,單節點可擴充套件支援乙個jbod,儲存密度提公升的同時,可進一步降低了儲存成本,且支援硬碟休眠,從而實現超低閒置功耗。

寒帶資料,更注重容量和能效比

目前,pci-e ssd也可以做到超大的容量,但是對於溫資料和冷資料來說,效能是過剩的。對於冷資料採用sata硬碟,就足夠滿足效能需求。以目前國內較大的雲儲存--金山雲為例。借助小公尺使用者的基礎,金山雲已成為全國最大的雲儲存服務提供商。預計未來可能每天新增1pb的內容,全年將有1000個pb內容需要儲存!如此海量的資料,不僅需要足夠的硬碟來儲存,也需要大量的機櫃以及交換機、負載均衡等網路層來支撐,大規模的伺服器集群無疑會增加運維與管理方面的複雜度,使資料中心的tco不斷攀公升。

在筆者看來,未來網際網路資料中心的儲存介質選擇上,pci-e ssd將逐步替代sata ssd成為熱資料和溫資料儲存的首選。而冷資料儲存上,大容量低成本的sata hdd還將是最具價效比的選擇。浪潮根據網際網路客戶需求,推出業界首款基於sas協議的資源池化產品--sas switch,將從機櫃層面推動冷熱資料分離,並簡化儲存裝置運維難度!

DT時代,小資料時代的未來發展

小資料時代的發展未來 1.小資料的未來趨勢 通過資料分析提高銷售水平和服務質量,是任何公司未來發展的重要手段。目前國內對於小資料的分析和利用仍處於起步階段,企業可利用現有資料進行全面分析,並對資料中變數的全面把握,充分利用小資料分析結果對公司進行發展 考慮小資料的人文因素,在資料分析日益完善的基礎上...

由資料儲存想到的

突然看到自己寫的一段 於是想到了當初糾結的經歷。正巧和一些東西聯絡起來。對於乙個無符號型16位的數來說,它能表達的最小數字為0即2 0 1,最大數字為2 16 1.同理32位,64位等。在運算子中存在 這樣的操作。以下便是我在設計中的乙個 大體框架 uint16a uint16b uint16c 後...

從馬雲的 DT時代 到林奇的 資料產業

阿里巴巴集團董事局主席馬雲最早提出 dt時代 這一概念,是在2014年3月在北京舉行的一場大資料產業推介會上。在之後的多個場合,馬雲對 dt時代 做出了系統解讀。他認為,人類已經由it時代進入了dt時代,資料正成為最核心的資源,甚至在未來,資料可能會成為像水 電 石油一樣的公共資源。如果說馬雲的 d...