AIOps實踐思考 AIOps如何與APM結合?

2021-09-17 08:15:06 字數 3044 閱讀 1048

\\

2023年4月13日由batj,360,華為,雲智慧型等眾多網際網路企業參與標準制定工作的《企業級aiops實踐建議》***中提到:aiops即智慧型運維,其目標是,基於已有的運維資料(日誌、監控資訊、應用資訊等),通過機器學習的方式來進一步解決自動化運維所未能解決的問題,提高系統的預判能力、穩定性、降低it成本,並提高企業的產品競爭力。gartner在2016時提出了aiops概念,並**到2023年,aiops的採用率將會達到整個運維行業的50%。

\\ 為什麼要使用aiops呢?它的價值到底在**?我們先來看一下通常情況下運維同學們是怎麼處理乙個故障的。\\

\\ 這是傳統運維的處理模式。在整個故障從隱患產生到恢復的過程中,有幾個明顯問題:

\\ \\t

隱患發現的問題\\t

\\t告警的問題\\t

\\t處理的問題\\t

\\\ 除去這四類明顯問題之外,當然還有更多的問題。比如:複雜多變的軟硬體環境中,如何利用海量且有**值的監控資料來保障業務高效安全運轉?在這過程中,運維規則同樣也是靈活多變的,又如何有效地進行管理和維護?針對這些傳統運維的痛點,不難抽象出以下幾個典型的場景:

\\\\

這裡我們提到的異常檢測,特指從海量的運維監控資料指標中,針對時間序列型別資料指標的不正常問題發現。簡單說,即發現歷史資料中與大部分物件不同的離群物件,這不同於依靠人來判斷的指標評價,能夠更有效地提公升發現問題的準確性和時效性。

\\\\

使用歷史資料學習得到的動態閾值替代靜態閾值,更及時地發現重大隱患或故障。

\\ 智慧型的告警訊息相關性分析和收斂,解決故障發生時,告警風暴帶來的***。通過對告警訊息的相關性分析,可以識別出告警的模式,將多條相關告警合併或轉化成一條具有更多資訊的告警,從而幫助更快更準確地診斷故障。

\\\\

在故障管理的檢測、定位與識別的三個階段中,故障的識別和診斷尤為重要。根因分析也被稱為故障定位、故障隔離或警報/事件相關性,是推斷產生一組給定症狀的一組故障的過程。根因分析要求必須使用乙個解釋故障和症狀之間關係的模型來執行這個推理過程。

\\\\

基於海量的歷史資料習得模型,對未來的趨勢的變化進行**,並在生產過程中持續不斷的進行模型的補償修正,同時可以實現故障或事故發生前較準確的提前預警。

\\ 在這一系列典型的場景中,可預期的輸出結果有影響範圍、原因概率和影響概率、具體的某個型別的物件實體。而要求輸入的資料能夠滿足以下幾個方面:

\\ \\t

資料維度覆蓋度要(時間維度、地域維度、系統級維度、應用級維度等)足夠\\t

\\t\t

系統級維度\\t\t

\\t\t

應用級維度\\t\t

\\t\t

資料間歸屬和關聯標記\\t\t

\\t\\\\\

前面已經列出了本文要解決的問題和需求,下面試圖論述aiops必須與apm相結合的必要性。

\\\\\\\\

這不同於通常的zabbix等監控產品收集的資料,而是與應用、業務相關聯,狀態資料在產生時除去時間維度與應用業務間接相關之外,同樣的由於trace模型而變得與應用和業務直接相關。

\\\\\\\\

通過apm和apm採集資料的簡單介紹,不難看出實踐aiops所需要的資料需求,以及apm系統提供的各維度資料。在這個供求關係中,apm系統提供的資料存量和增量足夠滿足、資料維度的覆蓋度足夠滿足、資料間的歸屬和關聯標記堪稱完美。

\\ 我們再回過頭來看,針對傳統運維的痛點抽象出的幾個典型場景,apm系統提供的資料能否很好的應對:\\

在apm系統中,關鍵事務是乙個重要的需求場景。通過使用者指定或系統習得的具備高頻訪問或至關重要的關鍵業務被稱為關鍵事務,由於資料產生的時序性,在異常檢測場景中,不僅可以很好地進行異常檢測,也可以基於呼叫鏈的關係和使用者行為來做故障的範圍**。

這兩個典型aiops場景對於apm系統提供的資料同樣適用,並且由於資料間的系統級與應用級關係,模式識別變得更加簡單高效,關係模型可以直接應用於告警模型的訓練中,成功規避了場景中監督或半監督裡最頭疼的人為干預的難題。應用智慧型告警收斂,aiops系統可以提供閃斷、高頻、陰斷等多種告警壓縮規則,基於演算法削減無價值訊息,縮短問題發現時間排除訊息洪水的干擾。

前面已經較為詳細地介紹了多種trace模型,並且論證了因trace模型而帶來的資料間的天然關係。據gartner多名分析師稱:apm系統實踐aiops最有利的**便是trace模型,它為分析問題提供了主線條。如果不用apm的話,應該怎麼做呢?通常會根據人員經驗或根據特定的業務場景,在應用程式中埋入追蹤**,即通稱的「打點」法,這具有很大的侷限性並因業務變更具有很大的操作難度,幾乎不可能或很難進行標準化和產品化。

\\ 利用apm系統提供的資料實踐aiops,從應用健康、使用者體驗或業務表現的外部視角來審視故障,如發現到某個具體的關鍵事務非常緩慢、某地域的使用者受到了嚴重影響,關聯診斷到最可能影響效能的**段或sql語句、應用伺服器或中介軟體的某個節點load或io情況。

\\\\

通過本文的閱讀,您可以獲知實踐aiops時利用apm系統的資料相較於傳統的運維資料更為快速有效。apm系統不僅向aiops實踐過程中提供足夠豐富的資料以讓aiops平台更快適應企業的應用場景、為aiops的實踐過程提供了採集、處理和儲存的關鍵技術基礎,並可以為aiops的實踐效果驗證和評價。

\\\\

高馳濤 (neeke),雲智慧型研發總監,是php開發組成員,同時也是pecl/seaslog的作者。早期從事大規模企業資訊化研發架構,曾先後任職於易車集團和某大型微博營銷平台,09年涉足網際網路數字營銷領域並深入研究架構與效能優化。2023年加入雲智慧型,致力於apm產品的架構與研發,對業務運維、智慧型運維有著獨到的見解,崇尚敏捷,高效,gettingreal。

華為雲AIOps實踐全面解析

在如今的雲計算時代,計算的雲化和分布式應用給運維工作帶來了很大的挑戰,讓人海戰術在運維面前失靈,所以基於演算法和機器學習的智慧型運維 aiops 必將是業務運維場景下的大勢所趨。業界有個說法,公有雲最後的競爭是基於運維能力的綜合競爭。現在各大公有云服務商也都在積極探索 aiops,此次我們採訪了華為...

華為雲AIOps實踐全面解析

在如今的雲計算時代,計算的雲化和分布式應用給運維工作帶來了很大的挑戰,讓人海戰術在運維面前失靈,所以基於演算法和機器學習的智慧型運維 aiops 必將是業務運維場景下的大勢所趨。業界有個說法,公有雲最後的競爭是基於運維能力的綜合競爭。現在各大公有云服務商也都在積極探索 aiops,此次我們採訪了華為...

AIOps,未來正來

gartner 到2019年底,全球四分之一的企業將策略性地實施aiops,支援兩個或更多的it運營功能。而到2022年,40 的大型企業將結合大資料和機器學習功能,支援和部分替代監測 服務台和自動化流程和任務。利用aiops進行it運營,此刻,正在到來。您所在的企業,目前正站在哪個位置上呢?畢竟,...