穩定性 為什麼監控和告警是必須的?

2021-10-25 15:41:03 字數 853 閱讀 3821

在工作中會有深度思考監控告警相關問題,我們都知道監控和告警的目的是要在事中及時發現問題並定位系統問題。我問過自己乙個問題,為什麼要加監控和告警?如果不加監控告警行不行?結論是:不行。

一、定義

首先來看一下為什麼是監控告警。

監控:通過資料量化伺服器的各種行為。

告警:當監控獲取的資料發生異常並且達到告警閾值或者觸發告警策略的時候,進行通知。

二、能不能不加監控依然讓系統穩定地提供服務?

答案是可以,但是前提條件是:

2.1 對系統存在的風險有全面100%的認知;

2.2 在需求迭代系統不斷複雜的過程中依然保持全面100%的認知;

2.3 在全面認識到系統複雜性以後,對於所有有風險的環節進行容錯處理;

三、監控告警的必要性?

3.1 幾乎不可能對系統存在的風險有100%的認知。因為生產系統是乙個非常混沌的環境,磁碟佔滿,介面超時,機器宕機,中介軟體宕機等等,總會有你想想不到的問題出現。

3.2 即使你做到了全面100%的認知,那麼也做不到在需求迭代中依然能保持100%的認知;

3.3 即使你前兩個都做到了,也不可能對所有有風險的環節做容錯;

打個比方,如果沒有監控告警,就像是乙隻巨輪沒有監控和方向,任何一點故障不及時發現和修復,都會讓船隻葬送大海。

四、怎麼做?

方法很多,暫且不表。

author:憶之獨秀

email:[email protected]

排序演算法為什麼需要考慮穩定性

僅僅用執行效率和記憶體消耗來衡量排序演算法的好壞是不夠的,針對排序演算法,我們還有乙個重要的度量指標,穩定性。這個概念就是如果待排序的序列中存在值相同的元素,經過排序之後,相等元素之間原有的先後順序不變。我來舉乙個例子說明下 2,9,3,4,8,3。排序後為2 3 3 4 8 9.如果3的前後順序沒...

軟體穩定性判斷的指標和標準

外部標準 1.給客戶帶來的損失 比如資料錯誤,系統宕機。把損失換成金錢,除以此系統本來可以賺的利潤,達到乙個百分比 標準1 客戶損失金額 利潤 說明 得到這個資料可能比較困難,現實有很多情形,我們可以靈活處理。一般的小問題客戶並不去計算損失,只要我們及時的把問題解決了就行了。然而我們總是要付出人力成...

排序演算法的複雜度和穩定性

本文簡單介紹幾種面試中常用的排序演算法,並對每個演算法的時間複雜度 空間複雜度 穩定性進行分析。1 氣泡排序 void swap int num1,int num2 void bubblesort int array,int size int main int argc,const char arg...