巡檢服務的重要性

2021-09-28 11:44:52 字數 1476 閱讀 1374

很早就計畫做乙個系統的巡檢專案,我所說的這個巡檢和咱們通常意義上理解的巡檢完全不一樣。這個巡檢是面向業務同學的,簡而言之,目標就是讓業務同學看得懂的巡檢

為什麼要這麼做?其實也是對目前的運維現狀做一些改變,一般來說,運維巡檢都是系統層面的,偏向於技術方向的,會出來一些很抽象的報告和一大堆的資料。對於業務同學來說,這種互動很不友好,對於絕大多數同學來說,我們看乙個偏理本行業內容的報告時,潛意識裡是排斥的。而系統巡檢方向的內容是更加底層的,有些資訊其實對於業務同學來說壓根不重要,但是我們的報告反而把這些放在了最前面,最醒目的地方,最終導致的結果就是報告有,但是難以消化。 

從另外乙個維度上來說,運維中的很多操作都是手工式,指令碼化,或者平台化的,這些操作對於開發同學來說是一種黑盒的操作,技術方向的代溝勢必會使得業務同學不能理解我們在做的事情,包括巡檢也是如此。對於他們來說,這可能就是dba份內的事情。 其實恰恰不是,我們巡檢後的很多問題,如果開發同學能夠提早了解和介入,在問題的處理流程和改進上效果會更好。

我們在和業務同學溝通的時候,我們期望得到這些答案。

應用最關注的問題:

最迫切的問題:

能夠支援得高效一些的問題

能夠支援的靈活一些的問題

但是從實際的溝通來看,業務同學其實也沒有乙個很明確的想法,所以我們開始做一些引導。我們把應用常見的一些問題羅列一下:

應用常見的問題:

1. 服務要上線,現有的伺服器壓力能不能支撐

2. 業務自增列溢位,一部分原因是字段型別設定,還有過量的資料寫入

3. 是否有冗餘的索引

4. 資料快取是多大,能夠支撐多大的併發能力?

5. 應用的資料變化情況

6. 資料寫入,儲存容量,是否需要調整

7. 哪個表上的io請求壓力最大?

8. 哪些錶走了全表掃瞄

9. 應該建立哪些索引,但是沒有建立

10. sql執行頻率,比如ops,tps等指標

11. 從庫是否提供讀請求,vip資訊和主從資訊集群的關聯關係

12. 連線數的分布情況

13. 後續要擴容的時候,是需要在新伺服器上擴充套件,還是可以應用已有的伺服器

14. 系統可用性,例項可用性

15. mysql慢日誌的需求

從整個溝通的情況來看,業務同學對於這些需求還是很迫切的,但是如果你不去問,可能他們也不知道該找誰,或者這些資訊誰能提供,有很多需求就是這樣不了了之。

順著這個脈絡往下聊,發現他們自身其實還是存在一些疑問的,他們其實也是希望能夠通過團隊力量來達到共贏。

在技術細節上,他們也存在一些疑惑,那就是接入視覺化的乙個原因,比如監控資料為例。

比如cpu監控指標,我們設定閾值是30%,則在業務檢視的時候能夠顯示出這個閾值線,讓業務知道這種指標是有問題的

對於不同業務的指標資訊,可以根據具體的業務場景來定製,不能一概而論。但是目標是對於業務同學來說,通過閾值來知道哪些指標是可以參考的,高還是低,通過閾值線來知道。

服務的重要性

科技的發展,時代的變遷,各行各業生產製造的產品琳琅滿目,是否當您銷售某型別產品時,覺得與自己產品類似的實在太多,給自己的產品找條出路實在太難呢?有沒有更好的辦法把自己的產品跟其他的同類產品差異化呢?如今其實同型別的產品越來越同質化,比來比去,看著這個做工很精細,那個好像質量也很好,最後能做出差異的也...

重要性取樣

from scipy import stats from scipy.stats import norm import numpy as np import matplotlib.pyplot as plt def f x return np.sin x x def intf x1,x2 retur...

定時的重要性

2.wm timer訊息 是又定時器發出的訊息 首先我們先建立乙個定時器 函式原型 unit settimer hwnd hwnd,uint nidevent,uint nelapse,timerproc lptimerfunc 要建立定時器,還需要 a.視窗控制代碼 b.選擇識別符號 c.微秒級的...