雲時代如何簡化資料中心網路運維？

sdn，在經歷了猶豫彷徨、百家爭鳴之後，目前已成為企業cto的堅定選擇。

sdn時代的網路展現出兩面性：一方面讓客戶使用更加簡單，另一方面卻讓運維更加複雜。而當前，整個行業的目光多聚焦在前者而忽略了後者。

隨著sdn的部署如火如荼，一絲憂患也隱隱浮現。2023年12月，管理行業研究機構ema(enterprise management associates)針對100多家企業的調查結果顯示：70%左右的客戶對於現有管理運維體系是否適用於sdn場景表示擔憂。gartner於 2023年7月發布的通訊網路技術成熟度曲線(the hype cycle)也顯示，sdn相關的運維技術處於泡沫化的底谷期(trough of disillusionment)，將在2～5年內進行大規模商用部署。

華為早在全面擁抱sdn初期，就把sdn運維作為關鍵課題進行研究和實踐，下面分別從why、what、how這3個緯度展示華為對sdn運維的思考。

why：sdn運維的新變化

相對於傳統網路，sdn時代的網路有如下的特徵：

動態網路：動態是指根據應用需求按需建立和刪除邏輯網路。比如某企業使用者反饋，在運維中需要投入50%的工作在防火牆的規則上，主要原因是隨著應用的變遷，防火牆規則沒有隨之變遷，造成網路沉澱和碎片。

實時響應：傳統網路的設計主要是面向人的介面，基於分鐘級別慢速的原則，比如使用了幾十年的snmp機制。這種慢速機制，在sdn的快節奏中成為「吐槽」點。某企業客戶抱怨其輕載的網路存在瞬態的突發丟包，懷疑存在毫秒級別的微突發流量，但是在分鐘級別的 snmp機制下無法觀察到，更無法優化。

大規模：大規模有兩個含義，其一是管理的裝置數量。從物理網元到邏輯網元vswitch/vrouter，其數量增加了50倍;其二是處理的故障數量。據linkedin披露，從2023年到2023年，需要處理的故障增加了18倍，但管理人員僅增加了幾個。

要應對上述sdn網路的3大問題，傳統的「人工運維」方式賢德捉襟見肘、難以為繼。

what：sdn運維內涵

為了滿足sdn下「動態性、實時性、大規模」的挑戰，華為提出需要對整個運維架構進行變革，才能讓sdn「管用、好用」。新的sdn運維架構需要圍繞下面幾個方面打造：

視覺化：看得見，看得清

俗話說「you can』t manage what you can』t see」。「看得見」有兩個方面的含義：

觀察物件可視：可監控物理和邏輯物件，包括網元級別的節點和介面等，也包括網路級別的鏈路、邏輯路徑和應用質量等。

觀察的實時性：支援毫秒級別現象的感知(比如流量微突發)、低頻率(<10-4)的丟包，以及大象流和老鼠流的識別等。

「看得清」意味著針對觀察的準確性，需要採集和分析海量的資料。包括：

精確計費：採集的比例需要從8k:1到2k:1，甚至1:1全量採集。

疑難問題定位：基於採集的「大資料」和實時分析，及時發現偶發性丟包和流量黑洞等。

自動化：自修復，自優化

傳統的網路運維架構是乙個單向的系統，而不是乙個負反饋系統。網路運維包括兩個方向：管理員在下行方向配置網路，然後通過上行方向獲得網路的狀態，也就是說，網路的部署和狀態是割裂的，通過管理員進行有限的溝通。這種機制顯然無法滿足網路故障自修復和網路自優化的需求。自動化的運維需要構建「閉環」運維架構，具體包括：

延遲修復：發現故障後，首先隔離故障，不影響現有業務。

診斷修復：結合採集的「大資料」和經驗資料庫，進行自動修復或給出明確的修復方案。

網路優化：及時發現網路存在的「病態」，如流量不均衡和流量擁塞風險等，通過閉環系統，由網路部署系統自動進行調整，把故障消滅在萌芽狀態。

how：sdn運維方案

基於sdn下的運維新變化，華為分解了運維的生命週期，構建了「閉環」的運維負反饋系統，稱為fabric insight架構，包括如下4個模組：

monitor：監視

為了解決實時，海量的資料監視，需要在如下兩個方面改進方案：

改造採集通道，滿足海量資料上報：對於中規模的資料上報，採用grpc等高效的採集通道替代snmp等;對於大規模的資料上報，直接採用資料面基於udp的採集通道，消除管理面cpu的頻寬限制。

改造採集點，滿足高頻採集：在資料中心交換機上設計專門的高頻採集部件，滿足毫秒級的事件採集。

detector：探測

未來及時發現端到端業務路徑的質量，需要通過實時傳送探測報的方式，對網路進行「掃瞄」。區別於傳統機制的「隨機掃瞄」，華為結合網路的拓撲和路由，支援更精確的「定向掃瞄」，可以做到真正的全網全覆蓋。基於這種能力，管理員就不再是「救火員」，而是運籌帷幄的「諸葛亮」。

metrics：度量

在某些情況下，網路質量顯示正常，但是應用體驗下降。探測機制無法解決這種問題，就需要基於真實的業務流進行度量，發現該業務流是否存在丟包和時延問題，如果丟包，丟包位置在哪?如果時延大，是什麼因素造成的?

diagnosis：診斷

診斷就像老中醫看病，通過monitor、detector和metrics進行「望聞問切」後，再結合經驗庫的案例，定位出問題的根因。診斷部件由一系列的工具組成，每個工具針對特定的問題。比如環路診斷工具、丟包診斷工具等。

華為秉承開放的理念，開放基本的運維api，客戶可自助地開放和定製自己的診斷工具集。

雲時代如何簡化資料中心網路運維？

雲計算資料中心運維管理要點

雲資料中心呼喚安全可控的運維

資料中心網路運維一指禪

雲時代如何簡化資料中心網路運維？

雲計算資料中心運維管理要點

雲資料中心呼喚安全可控的運維

資料中心網路運維一指禪

相關推薦