Google監控的4個黃金指標

監控將系統和應用程式生成的指標轉換為對應的業務價值；不構建指標或監控將存在嚴重的業務和運營風險，這將導致：

·無法識別或診斷故障；

·無法衡量應用程式的執行效能；

·無法衡量應用程式或元件的業務指標以及成功與否，例如跟蹤銷售資料或交易價值

監控系統兩個「客戶」：

– 技術

– 業務

four golden signals是google針對大量分布式監控的經驗總結，4個**指標可以在服務級別幫助衡量終端使用者體驗、服務中斷、業務影響等層面的問題。主要關注與以下四種型別的指標：延遲，通訊量，錯誤以及飽和度：

延遲：服務請求所需時間。

記錄使用者所有請求所需的時間，重點是要區分成功請求的延遲時間和失敗請求的延遲時間。例如在資料庫或者其他關鍵禍端服務異常觸發http 500的情況下，使用者也可能會很快得到請求失敗的響應內容，如果不加區分計算這些請求的延遲，可能導致計算結果與實際結果產生巨大的差異。除此以外，在微服務中通常提倡「快速失敗」，開發人員需要特別注意這些延遲較大的錯誤，因為這些緩慢的錯誤會明顯影響系統的效能，因此追蹤這些錯誤的延遲也是非常重要的。

通訊量：監控當前系統的流量，用於衡量服務的容量需求。

流量對於不同型別的系統而言可能代表不同的含義。例如，在http rest api中, 流量通常是每秒http請求數；

錯誤：監控當前系統所有發生的錯誤請求，衡量當前系統錯誤發生的速率。

對於失敗而言有些是顯式的(比如, http 500錯誤)，而有些是隱式(比如，http響應200，單實際業務流程依然是失敗的)。

對於一些顯式的錯誤如http 500可以通過在負載均衡器(如nginx)上進行捕獲，而對於一些系統內部的異常，則可能需要直接從服務中新增鉤子統計並進行獲取。

飽和度：衡量當前服務的飽和度。

主要強調最能影響服務狀態的受限制的資源。例如，如果系統主要受記憶體影響，那就主要關注系統的記憶體狀態，如果系統主要受限與磁碟i/o，那就主要觀測磁碟i/o的狀態。因為通常情況下，當這些資源達到飽和後，服務的效能會明顯下降。同時還可以利用飽和度對系統做出**，比如，「磁碟是否可能在4個小時候就滿了」。

Google監控的4個黃金指標

監控的4個黃金指標（google）

Google員工管理的十大黃金定律

4個Linux伺服器監控工具

Google監控的4個黃金指標

監控的4個黃金指標（google）

Google員工管理的十大黃金定律

4個Linux伺服器監控工具

相關推薦