2023年工作上的最大收穫 監控告警體系

2022-01-10 00:54:17 字數 2768 閱讀 5099

2023年工作上的最大收穫就是初步完善了系統的監控告警體系。

2023年工作上可謂是非常苦逼的,專案上忙到腳打後腦勺的同時還被各種發布問題、生產故障按在地上摩擦。可憐還因疫情原因公司福利大大縮減。

總結了一下令人頭疼的問題:

每次大的發布總會產生一堆的生產問題

日常應用出錯不能第一時間感知,總是到了客戶那裡才報過來

比如有一次發布後產生了乙個小小的傳值問題,但是會阻礙一部分客戶下單,結果兩天後通過客戶報障才發現,最終導致大量訂單損失!

總體來講就是缺乏對系統的掌控,應用發布上去後,就像個黑匣子,你只知道它在執行,卻不知道裡面到底是個什麼狀況,也許內部已經亂的不可開交,你卻一無所知,發布之後只留下一臉懵逼的你獨自凌亂。以致於每次發布後的幾天都是提心吊膽,有點風吹草動就慌得一比!而在網際網路這個頻繁發布的行業簡直就是災難

痛定思痛!終於在下半年的時候忍無可忍,決定給系統插上x光機。不僅要扒掉系統這個「美女」的黑色外衣,甚至讓其骨骼線條都赤裸裸的暴露在開發人員眼中。這個x光機就是監控告警體系。

我們所使用的是公司自研的監控系統。其大致實現如下圖:

各應用系統通過**客戶端寫入kafka

持久化層服務訂閱kafka訊息進行持久化,這其中influxdb主要儲存時序埋點,mysql與es儲存點的一些特性方便檢索與聚合

ui層讀取展示埋點資訊,監控告警配置,主要借助兩個強大的視覺化工具,grafana與kibana。

實現監控告警體系其實就分3步:

應用系統埋點

視覺化展示

監控告警配置

最簡單的方式可以通過 es+kibana的方案來實現

注意;在系統沒有遇到瓶頸的時候應該盡可能的用最簡單的方案解決問題,每引入乙個中介軟體便大大增加了系統的複雜度和維護成本

技術上的實現,其實只是監控體系的第一步。最重要的部分在於監控的內容,只有做好了監控內容才算是給你的系統構建了乙個良好的監控大網。而監控哪些內容,不同的系統,不同的業務需求都不相同,這就需要根據業務與系統的要求去制定與不斷的完善。

根據我們的經驗總結了幾個通用的監控點

請求量請求量不僅可以用來統計介面呼叫的數量、qps等資訊,還可以發現系統的問題。

這裡請求量主要包含兩部分,乙個是你自己提供的介面的請求量,一部分是你所依賴介面的請求量

請求量一般通過曲線圖展示,可以更好的反映出來乙個趨勢。

響應量響應量通常可以和請求量結合使用,如果乙個介面正常響應量小於請求量,那麼說明有一部分的請求是存在問題的。

耗時介面耗時主要用來監控介面效能,同樣包括你自己提供的介面的耗時和你所依賴的介面耗時。

訂單量在許多系統中,訂單量都是乙個很重要的業務指標,也是我們最重要的監控指標之一。

響應狀態

響應狀態是乙個很好的監控指標,它能夠很好的反映我們程式的處理結果。響應狀態比較適合用餅圖來展示。可以很好的反映出各種狀態的佔比。

異常狀態

同響應狀態一樣,異常狀態的監控也具有很重要的意義。同時異常狀態也是我們使用者告警的重要指標之一,他可以很直觀的反映出我們系統的健康狀態,異常狀態可以用餅圖,也可以用曲線圖來展示。

頁面之間轉化率

頁面之間轉化率不僅僅是使用者衡量產品價值的指標,同樣是我們系統監控的重要指標,如果從乙個頁面到另乙個頁面的轉化率突然降低,那麼極有可能是這之間出現了什麼問題。

其它監控內容最好之後,監控體系並沒有結束,還差一步,就是自動告警。自動告警的功能grafana和kibana都可以提供,也可以自定義我們想要的告**式。

這裡我們主要的告警策略主要有三種

閾值我們可以對請求量、訂單量、異常量設定乙個閾值,當每分鐘每小時請求量下降到某個閾值,或者異常量達到某個閾值的時候,觸發我們的告警。

環比環比主要是與前一段時間的對比,比如這一小時(或一天)的請求量與上一小時(或一天)的請求量對比,如果小於如果小於某個閾值,就觸發我們的告警。

同比有些時候環比是不可靠的,比如,我們系統的特性就是周

二、週三、周四的請求量要遠大於周

五、週六、周天的請求量,此時如果拿週六的請求量和周五的請求量的去對比是沒有意義的,這裡就需要用到同比,即拿上周五的請求量和本周五的請求量進行對比,當小於某個閾值的時候觸發告警。

注意:這裡的告警和閾值並非可以一蹴而就的,需要結合實際去慢慢調整它到乙個合適的值,我們就深感其痛。(起初就因為一些不合理的告警配置,我們優秀的人工智慧經常三更半夜給打你**,結果通常是虛驚一場,它還比較軸,你不處理它就一直打)。

歷時半年,我們對系統的監控告警體系的打造總算是告一段落。俗話說要想吃多少肉,就要先挨多少揍。這期間過程雖然是辛苦的,但成果也是巨大的。之前的問題得到了良好的解決。大部分的線上問題,第一時間就暴露了出來,有些問題在測試環境上通過監控就提早發現。這也側面的助力我們的測試工作。甚至在監控體系上線後一些「陳年」老bug也開始暴露出來。生產事件率大幅下降。

最重要的是每個開發人員對系統多了一種掌控的感覺,期待有一天,一群苦逼了許久的程式設計師可以在今後的每次發布後,輕鬆看著監控**,喝茶扯淡!

2023年7月20日 工作上的學習總結

寫 的時候糾結於很多變數名,所以去網上找找有沒有一鍵生成變數名的外掛程式 推薦codelf這個外掛程式,可以偶爾用用,但是推薦自己寫。在自己貼板子的時候,有一行電阻本來應該是豎著貼的,由於比較整齊全都橫著貼了,導致工作不正常。以後布板的時候一定要注意這些細節,我會犯的錯誤別人也會犯。其實本來應該很開...

小tp 工作上的想法

首先,我有了乙個輸入args,它是所有的引數,有可能有多層多級。他的下一級是args.b,而不是args b 但是在下一級就不一樣了,它是args.b c 沒辦法,現在只能如此。關於feeder,我們首先得到兩個dataset,train set和test set。然後,利用train set得到兩...

記錄一些工作上的事情

1.對於slot插入和拔出的時候,應該是連續成段的通知 基於slot的事件 各個關心該事件的模組,響應該事件,查詢並根據自己記錄的軟體資料,去寫晶元和繫結相關的硬體資料。2.對於單獨的埠有效,無效,up,down,切換狀態等事件,應該是基於每個埠傳送通知 基於埠的事件 本markdown編輯器使用s...