為什麼 告警等級 對縮短平均修復時間如此重要?

2021-07-09 07:49:00 字數 1102 閱讀 4074

網際網路時代 it 相關的衍生產品有很多,監控工具為其中的佼佼者。很多監控工具對於確保**和應用的平穩執行做了非常多的工作,但是,對於告警產生到通知使用者的過程,還有很大的改進空間。

簡單來說,告警等級是表徵事件嚴重性的指標之一,取決於事件對使用者體驗以及**或應用整體效能造成的負面影響的大小。

例如,導致**崩潰的事件,被認為負面影響極大,告警等級也就較高;而乙個ping的問題有時不會很明顯,被認為負面影響略小,告警等級也就較低。

告警等級的重要性體現在以下方面:

總而言之,根據告警等級不同,可以優先處理重要事件,避免干擾到不在職責範圍內的無關人員。

確定告警等級的重要性,相信大家已經了解了,但如何建立乙個適合整個團隊事件嚴重程度的評估方法,是監控工具開發人員的棘手問題。

一般來說,評估告警等級過程需考慮以下3個方面:

1.嚴重性等級結構

2.團隊結構

3.通訊結構

1)嚴重性等級結構

嚴重性等級的主要目的是確保合適的人員能夠知道問題,並按照嚴重程度來處理問題。一般來說,設定嚴重程度等級結構的最簡單方法是根據商業價值來確定**或應用的最關鍵部分。並且在團隊中,並沒有所謂的正確或錯誤的方式來判定嚴重性等級。要知道,重要的是了解團隊如何劃分具體的事件,並確保每個人都達成共識。

2)團隊結構

清晰地認識團隊結構並對告警進行有序分派,將提高整個團隊的執行效率。為了更有序和有效的分派告警,我們應該注意幾個問題:

3)通訊結構

如果你不知道告警在團隊結構內應該如何通訊,那麼建立通訊結構將是建立嚴重性等級過程中最為困難的一環。

你可以這樣考慮:

根據團隊結構,選擇合適的通知渠道與閾值配置,意味著問題解決能更加高效,且不會牽涉到無關人員。如 onealert 雲告警平台允許成員自行設定通知方式與閾值配置,如下圖所示,如果告警在30分鐘(使用者自行設定)後,一線成員無響應,將自動公升級為通知二級成員。使用者可以根據團隊結構的不同,設定不同層次的通知策略。

希望這篇文章對你有所幫助!

本文** oneapm 官方部落格

為什麼要開展等級保護工作?

本文由 網路安全檢測與防護技術國家地方聯合工程研究中心深圳分中心 東塔網路安全學院 總結歸納 這裡是東塔網路安全學院 零基礎入門 課堂開課了 寶寶們是不是已經等不及啦 那快點排排坐 塔塔子要開講啦 最近有好幾個小夥伴問塔塔子 為什麼要開展等級保護工作?塔塔子將從以下幾個方面內容來進行科普,希望可以幫...

為什麼對Python興趣

最開始看到網路爬蟲,是自學python時看到的乙個名詞,覺得挺有意思,就去了一下,然而發現百科上的解釋極其多,還很複雜,很多根本看不懂。今天老師上課的時候提到了,就覺得原來網路爬蟲這麼有意思,這麼重要。它是屬於一種大資料的採集方法,工作的過程大致如下 1 現在url佇列中寫入乙個或多個目標鏈結作為爬...

穩定性 為什麼監控和告警是必須的?

在工作中會有深度思考監控告警相關問題,我們都知道監控和告警的目的是要在事中及時發現問題並定位系統問題。我問過自己乙個問題,為什麼要加監控和告警?如果不加監控告警行不行?結論是 不行。一 定義 首先來看一下為什麼是監控告警。監控 通過資料量化伺服器的各種行為。告警 當監控獲取的資料發生異常並且達到告警...