如何有效預防宕機?你需要掌握這4個方法

2021-09-19 11:31:48 字數 1241 閱讀 8277

隨著應用架構的不斷演進,it 系統也變得越來越複雜,這樣就容易產生各類宕機事件。就在今年,國內外就出現了多起宕機事故。

所以當故障發生後,最快恢復故障是第一要務。而故障恢復時間(mean time to resolve)是重要的考核指標,那麼如何有效降低故障恢復時間,就是運維團隊面臨的最嚴峻挑戰。

降低事件和告警數量

相信不少同學有過被大量的告警郵件、簡訊撐爆郵箱的經歷。更有甚者,專門採購一台手機來接收各種監控簡訊,但大量無效的干擾事件、告警簡訊蒙蔽了運維同學的雙眼,而這樣會導致乙個後果,就是一些重要故障可能會被忽略掉了。因此識別和確定重要故障尤為重要,而且大量的告警資訊也是不合適的。所以,我們需要持續地降低事件和告警數量,但隨著 it 系統的不斷公升級變更,配套的監控就會調整,此時告警數量又會增加,所以我們要進行持續的調整。

國內第乙個 saas 模式的雲告警平台 onealert 就可以幫助使用者很好地解決這個問題,該平台整合了國內外多種主流的監控和支撐系統,在乙個平台上就可以集中處理所有 it 事件,onealert可以深度分析事件趨勢,並進行回顧和優化操作,從真正意義上降低事件和告警數量。

降低故障恢復時間

首先需要收集有效資料,通過onealert對事件進行收集和分析,我們發現了兩種情況:事件少,處理時間長;事件多,處理時間短,這兩者都不合理。前者是不出事,出事就是大事,總結起來就是一句話:「監控不到位」。後者就是頻繁的小事,經常會耗費整個團隊的大量精力。最合理的方式就是是事件和處理時間的平衡。中間數(median time of resolve)的處理時間應該是20-30分鐘,這僅供參考。當然,最理想的狀態是事件和恢復時間同步日趨減少。

降低故障響應時間

公升級策略

當事件發生後,如果在規定時間內沒有處理,而事件可能會無限期的拖延或者是遺漏,如果建立有效的公升級策略和高效的管理組織,就能夠避免類似問題發生。現在,onealert還提供了事件公升級機制,如果一線值班人員拖延或者遺漏,則會公升級到二線,以此類推,從而有效地防止故障問題疏漏。

我們相信,如果能夠有效利用上面4個資料指標,以資料驅動,並進行持續的改進和優化。就可以有效的降低故障恢復時間,而且有序的事件處理過程,也能夠讓我們的團隊成員保持良好的體能和精神。

譯 關於 SPA,你需要掌握的 4 層 (2)

此文已由作者張威授權網易雲社群發布。現在我們有了乙個可執行且不依賴於框架的應用程式,react 已經準備投入使用。檢視層由 presentational components 和 container components 組成。接下來,我們來建立 articleformcontainer。react...

如何正確選擇開源資料庫?你需要這的5個技巧

你或許會遇到需要選擇合適的開源資料庫的情況。但這無論對於開源方面的老手或是新手,都是一項艱鉅的任務。希望通過這篇文章能夠向大家分享這方面的一些技巧。你或許會遇到需要選擇合適的開源資料庫的情況。但這無論對於開源方面的老手或是新手,都是一項艱鉅的任務。在過去的幾年中,採用開源技術的企業越來越多。面對這樣...

如何正確選擇開源資料庫?你需要這的5個技巧

你或許會遇到需要選擇合適的開源資料庫的情況。但這無論對於開源方面的老手或是新手,都是一項艱鉅的任務。希望通過這篇文章能夠向大家分享這方面的一些技巧。你或許會遇到需要選擇合適的開源資料庫的情況。但這無論對於開源方面的老手或是新手,都是一項艱鉅的任務。在過去的幾年中,採用開源技術的企業越來越多。面對這樣...