雲時代如何簡化資料中心網路運維?

2021-09-23 06:31:41 字數 2717 閱讀 5335

sdn,在經歷了猶豫彷徨、百家爭鳴之後,目前已成為企業cto的堅定選擇。

sdn時代的網路展現出兩面性:一方面讓客戶使用更加簡單,另一方面卻讓運維更加複雜。而當前,整個行業的目光多聚焦在前者而忽略了後者。

隨著sdn的部署如火如荼,一絲憂患也隱隱浮現。2023年12月,管理行業研究機構ema(enterprise management associates)針對100多家企業的調查結果顯示:70%左右的客戶對於現有管理運維體系是否適用於sdn場景表示擔憂。gartner於 2023年7月發布的通訊網路技術成熟度曲線(the hype cycle)也顯示,sdn相關的運維技術處於泡沫化的底谷期(trough of disillusionment),將在2~5年內進行大規模商用部署。

華為早在全面擁抱sdn初期,就把sdn運維作為關鍵課題進行研究和實踐,下面分別從why、what、how這3個緯度展示華為對sdn運維的思考。

why:sdn運維的新變化

相對於傳統網路,sdn時代的網路有如下的特徵:

動態網路:動態是指根據應用需求按需建立和刪除邏輯網路。比如某企業使用者反饋,在運維中需要投入50%的工作在防火牆的規則上,主要原因是隨著應用的變遷,防火牆規則沒有隨之變遷,造成網路沉澱和碎片。

實時響應:傳統網路的設計主要是面向人的介面,基於分鐘級別慢速的原則,比如使用了幾十年的snmp機制。這種慢速機制,在sdn的快節奏中成為「吐槽」點。某企業客戶抱怨其輕載的網路存在瞬態的突發丟包,懷疑存在毫秒級別的微突發流量,但是在分鐘級別的 snmp機制下無法觀察到,更無法優化。

大規模:大規模有兩個含義,其一是管理的裝置數量。從物理網元到邏輯網元vswitch/vrouter,其數量增加了50倍;其二是處理的故障數量。據linkedin披露,從2023年到2023年,需要處理的故障增加了18倍,但管理人員僅增加了幾個。

要應對上述sdn網路的3大問題,傳統的「人工運維」方式賢德捉襟見肘、難以為繼。

what:sdn運維內涵

為了滿足sdn下「動態性、實時性、大規模」的挑戰,華為提出需要對整個運維架構進行變革,才能讓sdn「管用、好用」。新的sdn運維架構需要圍繞下面幾個方面打造:

視覺化:看得見,看得清

俗話說「you can』t manage what you can』t see」。「看得見」有兩個方面的含義:

觀察物件可視:可監控物理和邏輯物件,包括網元級別的節點和介面等,也包括網路級別的鏈路、邏輯路徑和應用質量等。

觀察的實時性:支援毫秒級別現象的感知(比如流量微突發)、低頻率(<10-4)的丟包,以及大象流和老鼠流的識別等。

「看得清」意味著針對觀察的準確性,需要採集和分析海量的資料。包括:

精確計費:採集的比例需要從8k:1到2k:1,甚至1:1全量採集。

疑難問題定位:基於採集的「大資料」和實時分析,及時發現偶發性丟包和流量黑洞等。

自動化:自修復,自優化

傳統的網路運維架構是乙個單向的系統,而不是乙個負反饋系統。網路運維包括兩個方向:管理員在下行方向配置網路,然後通過上行方向獲得網路的狀態,也就是說,網路的部署和狀態是割裂的,通過管理員進行有限的溝通。這種機制顯然無法滿足網路故障自修復和網路自優化的需求。自動化的運維需要構建 「閉環」運維架構,具體包括:

延遲修復:發現故障後,首先隔離故障,不影響現有業務。

診斷修復:結合採集的「大資料」和經驗資料庫,進行自動修復或給出明確的修復方案。

網路優化:及時發現網路存在的「病態」,如流量不均衡和流量擁塞風險等,通過閉環系統,由網路部署系統自動進行調整,把故障消滅在萌芽狀態。

how:sdn運維方案

基於sdn下的運維新變化,華為分解了運維的生命週期,構建了「閉環」的運維負反饋系統,稱為fabric insight架構,包括如下4個模組:

monitor:監視

為了解決實時,海量的資料監視,需要在如下兩個方面改進方案:

改造採集通道,滿足海量資料上報:對於中規模的資料上報,採用grpc等高效的採集通道替代snmp等;對於大規模的資料上報,直接採用資料面基於udp的採集通道,消除管理面cpu的頻寬限制。

改造採集點,滿足高頻採集:在資料中心交換機上設計專門的高頻採集部件,滿足毫秒級的事件採集。

detector:探測

未來及時發現端到端業務路徑的質量,需要通過實時傳送探測報的方式,對網路進行「掃瞄」。區別於傳統機制的「隨機掃瞄」,華為結合網路的拓撲和路由,支援更精確的「定向掃瞄」,可以做到真正的全網全覆蓋。基於這種能力,管理員就不再是「救火員」,而是運籌帷幄的「諸葛亮」。

metrics:度量

在某些情況下,網路質量顯示正常,但是應用體驗下降。探測機制無法解決這種問題,就需要基於真實的業務流進行度量,發現該業務流是否存在丟包和時延問題,如果丟包,丟包位置在哪?如果時延大,是什麼因素造成的?

diagnosis:診斷

診斷就像老中醫看病,通過monitor、detector和metrics進行「望聞問切」後,再結合經驗庫的案例,定位出問題的根因。診斷部件由一系列的工具組成,每個工具針對特定的問題。比如環路診斷工具、丟包診斷工具等。

華為秉承開放的理念,開放基本的運維api,客戶可自助地開放和定製自己的診斷工具集。

雲計算資料中心運維管理要點

在資料中心生命週期中,資料中心運維管理是資料中心生命週期中最後乙個 也是歷時最長的乙個階段。資料中心運維管理就是 為提供符合要求的資訊系統服務,而對與該資訊系統服務有關的資料中心各項管理物件進行系統的計畫 組織 協調與控制,是資訊系統服務有關各項管理工作的總稱。資料中心運維管理主要肩負起以下重要目標...

雲資料中心呼喚安全可控的運維

隨著新技術新業務的不斷發展,現代資料中心發生了很多變化 資源規模及維護壓力快速增長,客戶需求越來越多種多樣,資料中心迅速走向集中化 規模化,大型資料中心成為主流,越來越多的雲業務代替傳統租賃託管業務 這些變化都要求資料中心踏上整合 雲化之路,同時也給安全管控 資源管理 配套供給 綠色節能等方面提出新...

資料中心網路運維一指禪

資料中心網路如何高效運維?這個問題經常困擾著資料中心的運維技術人員,運維技術人員疲於處理各種網路故障 變更 檢查等事物,沒有時間學習新技術,網路運維技術人員的工作往往做得非常辛苦,經常加班加點處理,然而問題似乎越是解決反而越多,陷於乙個惡性迴圈,運維的人員不停地加班,問題不斷出現,不斷被解決,似乎永...