乙份運維監控的終極秘籍！監控不到位，宕機兩行淚

有很多文章都提到過白盒監控和黑盒監控，以及監控的四個**指標。關於白盒與黑盒監控的定義，這裡不再贅述。一般來說，白盒與黑盒分別從內部和外部來監控系統的執行狀況，例如機器存活、cpu記憶體使用率、業務日誌、jmx等監控都屬於白盒監控，而外部埠探活、http探測以及端到端功能監控等則屬於黑盒監控的範疇。

本文將主要從白盒監控的採集入手，解答關於新系統如何新增監控的問題。

黑盒與白盒監控

配置監控時，我們首要面對的是監控資料如果採集的問題。一般我們可以把監控指標分為兩類：基礎監控和業務監控。

包括cpu、記憶體、磁碟、埠和程序等機器、網路的作業系統級別的資訊。通常情況下，成熟的監控系統（例如開源的prometheus、zabbix等）均會提供基礎監控項的採集能力，這裡不做過多介紹。但需要注意的一點，機器級別的基礎監控指標一般並不能代表服務的真實執行狀況，例如單台例項的故障對乙個設計合理的分布式系統來說並不會帶來嚴重後果。所以只有結合業務相關監控指標，基礎監控指標才有意義。

業務監控指標由業務系統內部的服務產生，一般能夠真實反應業務執行狀態。設計合理的系統一般都會提供相關監控指標供監控系統採集。監控資料的採集方法一般可以分為以下幾大類。

以上列出了幾種常見的監控指標採集方法，在實際工作，如果沒有現成的監控採集外掛程式，則需要我們自行開發採集指令碼。

無論業務系統如何複雜，監控指標如何眼花繚亂，但萬變不離其宗，監控的目的無非是為了解服務執行狀況、發現服務故障和幫助定位故障原因。為了達成這個目的，google sre總結的監控四個**指針對我們新增監控具有非常重要的指導意義。下圖給出四個**指標所包含的主要監控指標，下面我們就這四個**指標分別展開說明，並給出一些監控項的採集例項。

四個**指標

注意：除白盒監控外，主要功能或介面、以及內部存在明顯邊界的功能模組和上游依賴模組，都應該新增黑盒端到端監控。

服務延遲的上公升不僅僅體現在使用者體驗的下降，也有可能會導致請求堆積並最終演變為整個業務系統的雪崩。

以下為延遲指標的主要關注點：

注意：與錯誤指標類似，白盒延遲指標通常僅能代表系統內部延遲，建議為主要功能或介面新增黑盒監控來採集端到端的延遲指標。

流量指標可以指系統層面的網路和磁碟io，服務層面的qps、pv和uv等資料。流量和突增或突減都可能預示著系統可能出現問題（攻擊事件、系統故障…）。一下為流量主要關注的方面：

更為通俗的講，飽和度可以理解為服務的利用率，可以代表系統承受的壓力。所以飽和度與流量息息相關，流量的上公升一般也會導致飽和度的上公升。通常情況下，每種業務系統都應該有各自的飽和度指標。

在很多業務系統中，訊息佇列長度是乙個比較重要的飽和度指標，除此之外cpu、記憶體、磁碟、網路等系統資源利用率也可以作為飽和度的一種體現方式。

以上總結了常見的監控指標採集方法，以及四個**指標所包含的常見內容。在實際工作中，不同的監控系統的設計多種多樣，沒有統一標準，並且不同的業務系統通常也有著特定的監控採集方法和不同的**指標定義，具體如何採集監控指標和新增告警都需要我們針對不同系統特點靈活應對。

乙份運維監控的終極秘籍！監控不到位，宕機兩行淚

運維經驗分享關於系統運維監控的幾點建議

關於系統運維監控的幾點建議

運維領域內的IT監控軟體的分類

乙份運維監控的終極秘籍！監控不到位，宕機兩行淚

運維經驗分享 關於系統運維監控的幾點建議

關於系統運維監控的幾點建議

運維領域內的IT監控軟體的分類

相關推薦

運維經驗分享關於系統運維監控的幾點建議