智慧型運維 從場景中積蓄運維變革的未來

2022-09-29 09:15:12 字數 3199 閱讀 3676

伴隨金融機構數位化轉型的加速,it運維從理念到模式正在向智慧型運維全面邁進。作為率先實現智慧型運維工程化落地的全棧it運維服務商,雲智慧型(北京)科技****總裁劉洪濤先生為《新金融世界》分享了智慧型運維對於金融數位化和fintech的意義,以及智慧型運維在金融機構落地過程中的注意要點。

金融數位化的運維變革

數位化時代,it對金融業務的重要程度與日俱增,是推動機構進行智慧型運維變革的關鍵。

舉例而言,在幾年前,很多金融機構會在半夜 12 點- 1 點暫停交易進行系統維護,這在今天是絕不允許的。現在的金融客戶怎麼可能接受零點秒殺卻無法完成支付的情況?!

如今的金融交易必須達到 24 小時不間斷的秒級響應要求。這就意味著,it對於金融而言已經由業務支撐系統轉變為業務本身。

劉洪濤表示:「我們在跟金融行業使用者交流的時候,大家談的都是業務,關注的也是業務。」在這樣的應用環境下,傳統運維針對it系統或者單獨it平台的監控已經不能滿足需求。「客戶關心的是交易是否成功,使用者交易的體驗怎麼樣,所以對運維要求與過去相比有很大的不同。過去,it從底層裝置、作業系統、應用、到業務這麼幾層,運維的關注點在於底層裝置的高可用和穩定性,衡量指標是sla能達到幾個9。今天,大家的關注點集中到業務層面,衡量it對業務影響程度的指標變成了mttr(mean time to recovery,平均故障修復時間),這就需要從業務的視角,實現覆蓋所有業務鏈路的端到端全域性監控、管理和分析,把監控的點和麵都做完整,還要與業務指標進行關聯,這就比傳統運維複雜度高很多」,劉洪濤說。

當前金融運維的另外乙個挑戰來自於數位化轉型的推進。區塊鏈、虛擬化、容器、iot等fintech新技術程式設計客棧的應用,導致it規模和複雜度呈指數增長。過去,傳統運維收到不明原因的告警資訊,可以把相關裝置一台臺關掉,再逐一重啟來進行排查,解除故障。但在金融系統如此龐大的今天,這類單純依靠人工的故障修復方法顯然是不可取的。不僅如此,隨著it執行環境越來越複雜,每時每刻產生的it資料量更加驚人,依靠人工設定告警閾值、分析處理海量告警資訊同樣不現實。這就需要利用大資料和ai技術的助力,通過模式識別和演算法對歷史資料進行學習,設定更加有效的動態告警閾值,同時對海量告警資訊進行實時壓縮、收斂和關聯分析,利用根因分析追蹤導致事件發生的根本原因,實現告警事件的及時處置,有效降低mttr。

智慧型運維的認知和核心技術

到目前為止,業界針對aiops(智慧型運維)的認知尚未統一,有人說aiops就是演算法,有的則認為是自動化運維。劉洪濤表示:「其實aiops並不是像apm那樣的產品,而是一種理念。用ai技術去提公升金融機構的運維能力和效率,讓它具有更好的智慧型化,更高效的解決金融業務執行過程中遇到的種種問題。同時,ai是一種可以工程化的實用科技,aiops就是ai在it運維領域的落地,通過ai技術的工程化,全面提公升現有itom、itsm 和itoa產品和解決方案能力。」

雲智慧型金融行業智慧型運維管控中心

談到aiops(智慧型運維)的核心技術,劉洪濤認為:「目前,智慧型運維的關鍵不是演算法,因為很多演算法都已經非常成熟而且開源了。但是,客戶的應用場景千差萬別,需求也各不相同,到底哪種演算法用什麼樣的模式匹配到客戶場景中,這才是核心。這是乙個『技術工程化』落地的過程,對於智慧型運維提供商來說,既要有非常好的演算法能力,又要對客戶的應用場景有非常好的理解力,還要有工程化落地的能力。這幾種能力都具備,才能幫客戶解決問題。」

www.cppcns.com此外,aiops需要完整的歷史資料、日誌資料和實時監測資料。因此,要實現aiops落地,資料採集能力同樣必不可少,只有這樣才能通過ai得到有價值的結果。

金融行業智慧型運維落地的理念和建議

早在 2016 年,雲智慧型就率先提出了智慧型運維的概念,並在金融、通訊、製造、零售等多個行業進行了實踐。針對aiops在金融行業的落地,雲智慧型秉承的理念是: 「以資料為基礎,演算法為支撐,場景為導向」。

部署智慧型運維首先要理解傳統運維管理與智慧型運維的邏輯差異:傳統運維管理是依賴流程——故障、告警、處理,依靠工單系統把這些串起來。智慧型運維是基於資料和智慧型化分析結果進行運維管理,與傳統運維的邏輯完全不一樣。

雲智慧型docp智慧型運維中颱

與傳統運維管理依靠itsm平台管理所有it問題不同,智慧型運維的落地注重場景化,解決的是某一類問題。例如智慧型運維的四大場景:統一監控、根因分析、動態基線、故障**。當然,智慧型運維的基礎仍然是資料,在資料之上構建ai分析能力,在ai之上是事件管理等產品模組。這些模組以松耦合的方式組成,可根據使用者需求的不同任意組合,提供告警抑制、異常檢測、根因分析、多維分析、呼叫鏈追蹤、故障**等場景化解決方案能力。最後通過視覺化運維監控中心,把it價值直觀呈現在it和業務部門面前,讓管理者和業務運營負責人都能看懂it。

劉洪濤建議:「智慧型運維不要上來就做大而全的,我們的建議是『小步快跑,階梯式前進』。具體來說,先從某個運維問題總結出來的場景入手,而落地的時候要充分考慮未來幾個、甚至幾十個場景的整體需求。這種做法的好處在於效率最高,roi最合算,也最有可能達成目標。it團隊在逐步積累aiops經驗的同時,樹立起智慧型運維成功部署的信心。而業務部門可以從乙個場景的變化快速看到aiops價值和成效,自然更願意配合it部門的變革,推進業務與it的融合。所以,我們的建議是做好規劃,階段式實現aiops落地。」 

金融行業智慧型運維的四大典型場景

雲智慧型總結了現階段金融機構推進aiops智慧型運維落地的四個典型場景。

一、統一監控。這是幾乎所有使用者在完成系統構建、業務上線之後都要用到的。統一監控與傳統監控不同之處在於,它是服務於業務的。過去的監控系統主要監控底層硬體裝置和豎井式it系統,但對於金融機構來說,這些分散的監控系統共同支撐起業務的運轉。因此,必須有乙個開放的統一監控平台,把業務和乙個個孤立的監控系統整合起來,同時也可以依託這個平台獲得完整的it資料。目前,在it成熟度最高的銀行業,已經有部分機構完成了統一監控平台的構建,而規模較小的城商行、農信、**、**等金融機構則有明顯的統一監控需求。

二、根因分析。系統產生的大量告警資訊怎麼判斷?依靠人工處理和工程師的經驗判斷故障變得越來越困難。利用智慧型演算法對異常或者故障的根因進行分析,給出故障的根因推薦以及深入分析結果,讓事件得到迅速處理。這也是乙個aiops的主要應用場景。

三、動態基線。動態基線是各種監控場景裡的典型需求,基於歷史資料,利用智慧型演算法深度學習,對未來一段時間內每個時間點的數值進行精準**,將**值作為基線來監控和告警。由於業務指標受時間、季節、事件等因素影響不斷波動,這就導致it指標的變化同樣是動態的,也只有動態閾值才能更快、更準確的發現問題,提高運維的事件響應和處理效率。

四、故障**。很多問題的發生都是有徵兆的,故障**基於歷史告警訊息的相關性,對當前處於故障狀態的警報可能造成的影響進行**判斷 ,從而實現故障的提前預警。這種場景最能體現aiops的智慧型分析能力,但需要針對歷史資料進行大量學習和訓練,取得成效相對較慢。

本文位址: /news/media/234005.html

ccf 智慧型運維 裴丹 基於機器學習的智慧型運維

聽了裴丹教授關於 基於機器學習的智慧型運維 演講之後的寫下的乙個筆記。今天來看,還是有不少啟發,分享給大家,對細節有興趣的童鞋可以去看演講實錄。在本文末尾附了相關鏈結。基於機器學習的智慧型運維 講師 裴丹 概述值得工業界運維工程師關注的頂級學術會議 智慧型運維歷程 基於專家庫規則 機器學習 深度學習...

it運維中faq IT運維解決方案

藍快為企業提供桌面運維 系統運維 應用系統運維 儲存與備份運維 網路運維 資訊保安運維等服務,降低企業裝置的故障率,提公升裝置的執行能力,推動企業商業價值的實現 藍快it運維服務 桌面運維服務 對終端使用者及相關辦公裝置等問題,進行響應支援,保障使用者的日常辦公 系統運維服務 對各類伺服器進行日常維...

運維囧事 運維的苦樂之旅

人生就是一段充滿苦與樂的旅程,在人生當中有痛苦也有歡樂,痛苦不一定是負面的,有的時候還會使你進步,增強應變能力。對一般人而言,人生一定要是快樂的才是有意義的,可是你仔細想想,有誰不是因為挫折而更加的堅強呢?走過運維的風風雨雨,與大家一起回憶其中的苦樂甘甜,那何嘗不是一段段激情燃燒的歲月呢,記載著你我...