機器學習在 IT 運維管理中的必要性!

2021-07-11 07:23:04 字數 1125 閱讀 5767

機器學習技術在監控工具中的應用已經成為 it 運維與 devops 團隊的一大熱點話題。儘管相關的使用案例很多,對 it 團隊而已真正的「殺手級應用」是機器學習如何提高實時事件管理能力,從而幫助較大規模的企業提高服務質量。對此,關鍵在於在使用者發現問題之前提早探測異常,進而減少生產事故與中斷的負面影響。

那麼,在it運維管理的環境下,機器學習到底是什麼?

網上有不少關於機器學習的巨集觀定義:對於某給定的任務t,在合理的效能度量方案p的前提下,某電腦程式可以自主學習任務t的經驗e;隨著提供合適、優質、大量的經驗e,該程式對於任務t的效能逐步提高。更通俗的來講,即:隨著任務的不斷執行,經驗的積累會帶來計算機效能的提公升。

在 it 運維管理的語境中,機器學習的首要替代方案是為 it 運維管理建立行為模型,了解這一點非常重要。行為模型方法要求了解基礎架構的所有元件,才能理解出現中斷或服務質量下降的可能原因。更確切地說,你要試著判斷哪些事件和告警模式與你希望監控的條件相匹配。

事實上,大多數 it 運維管理工具都屬於這一類別。不論是過時的遺留事件管理器,還是使用「聚合及查詢」方法進行 it 運維的現代工具。總之,你都要對這些工具進行一定的配置,讓它們留意你預先就知道需要搜尋的東西。

而另一方面,機器學習則使用資料本身來尋找值得留意的特徵,這些特徵可能在事先完全無法預知。例如,非監督式機器學習,可用於分析事件流或日誌訊息,從而找出異常的訊息集群。之後,這些異常可以與某項運維結果相聯絡,從而捕獲潛在中斷的原因與症狀。

然而,監督式機器學習可用於記錄使用者針對給定告警及告警集群的活動,並相應地做出演算法上的調整。本質上,機器學習利用資料不斷地建立並更新行為模型,而不是使用靜態的行為模型尋找特定的結果。

在 it 數位化轉型的今天,隨之而來的規模複雜度、變更速度以及軟體抽象化等挑戰成為了機器學習應用於 it 運維管理的理由。

現代 it 環境下,不斷變化的基礎架構會產生大量的事件資料需要處理。在 onealert,機器學習主要用於「消除噪音」。例如,面對每秒鐘成千上萬的告警事件,如何在消除噪音的同時保留有價值的資訊事件?

目前 onealert 產品對告警事件的壓縮率已經高達80%。基於時間片的告警資訊壓縮已經趨於成熟,基於告警屬性相似度的聚類模型能夠將告警壓縮率達到 95%。而基於機器學習的人工智慧壓縮更是能夠將告警壓縮到 99%(我們敬請期待!)

本文** oneapm 官方部落格

ccf 智慧型運維 裴丹 基於機器學習的智慧型運維

聽了裴丹教授關於 基於機器學習的智慧型運維 演講之後的寫下的乙個筆記。今天來看,還是有不少啟發,分享給大家,對細節有興趣的童鞋可以去看演講實錄。在本文末尾附了相關鏈結。基於機器學習的智慧型運維 講師 裴丹 概述值得工業界運維工程師關注的頂級學術會議 智慧型運維歷程 基於專家庫規則 機器學習 深度學習...

IT運維管理中的黑色藝術

it運維管理中的黑色藝術 it運維管理是一門 如何提高網路應用效能的課題,怎樣利用網路管理做到企業it基礎設施建設的管理 合理分配網路資源 保障生產業務 對網路規劃和新業務上馬提供支撐。調優難點 線上系統 調優工作有難易之分,最簡單的例子就是新 舊兩套業務系統,後者明顯需要更多的理解和數字變化上的感...

運維自動化的必要條件

一 可擴充套件的高併發 集群架構 dns lb4 lb7 cache web 中介軟體 db 儲存 前端的東西都放在cdn,靜態的網頁,1 智慧型dns根據ip 分配伺服器 2 機房內,lb4,4層lvs,http 後不管了 如果想配置多個lvs,在dns裡面指向多個lvs,一般不需要,乙個主備就o...