Google監控的4個黃金指標

2021-10-06 00:19:45 字數 1095 閱讀 9466

監控將系統和應用程式生成的指標轉換為對應的業務價值;不構建指標或監控將存在嚴重的業務和運營風險,這將導致:

·無法識別或診斷故障;

·無法衡量應用程式的執行效能;

·無法衡量應用程式或元件的業務指標以及成功與否,例如跟蹤銷售資料或交易價值

監控系統兩個「客戶」:

– 技術

– 業務

four golden signals是google針對大量分布式監控的經驗總結,4個**指標可以在服務級別幫助衡量終端使用者體驗、服務中斷、業務影響等層面的問題。主要關注與以下四種型別的指標:延遲,通訊量,錯誤以及飽和度:

延遲:服務請求所需時間。

記錄使用者所有請求所需的時間,重點是要區分成功請求的延遲時間和失敗請求的延遲時間。 例如在資料庫或者其他關鍵禍端服務異常觸發http 500的情況下,使用者也可能會很快得到請求失敗的響應內容,如果不加區分計算這些請求的延遲,可能導致計算結果與實際結果產生巨大的差異。除此以外,在微服務中通常提倡「快速失敗」,開發人員需要特別注意這些延遲較大的錯誤,因為這些緩慢的錯誤會明顯影響系統的效能,因此追蹤這些錯誤的延遲也是非常重要的。

通訊量:監控當前系統的流量,用於衡量服務的容量需求。

流量對於不同型別的系統而言可能代表不同的含義。例如,在http rest api中, 流量通常是每秒http請求數;

錯誤:監控當前系統所有發生的錯誤請求,衡量當前系統錯誤發生的速率。

對於失敗而言有些是顯式的(比如, http 500錯誤),而有些是隱式(比如,http響應200,單實際業務流程依然是失敗的)。

對於一些顯式的錯誤如http 500可以通過在負載均衡器(如nginx)上進行捕獲,而對於一些系統內部的異常,則可能需要直接從服務中新增鉤子統計並進行獲取。

飽和度:衡量當前服務的飽和度。

主要強調最能影響服務狀態的受限制的資源。 例如,如果系統主要受記憶體影響,那就主要關注系統的記憶體狀態,如果系統主要受限與磁碟i/o,那就主要觀測磁碟i/o的狀態。因為通常情況下,當這些資源達到飽和後,服務的效能會明顯下降。同時還可以利用飽和度對系統做出**,比如,「磁碟是否可能在4個小時候就滿了」。

監控的4個黃金指標(google)

four golden signals是google針對大量分布式監控的經驗總結,4個 指標可以在服務級別幫助衡量終端使用者體驗 服務中斷 業務影響等層面的問題。主要關注與以下四種型別的指標 延遲,通訊量,錯誤以及飽和度 記錄使用者所有請求所需的時間,重點是要區分成功請求的延遲時間和失敗請求的延遲時...

Google員工管理的十大黃金定律

新聞周刊 在與加州大學伯克利分校資訊管理學院院長哈里 瓦里安 hal varian 的一次討論中,google公司ceoeric schmidt講述了這家搜尋巨頭公司在產生和保留知識型員工方面遵循的幾條原則。該文被美國 新聞周刊 news week 刊登,以下是schmidt的觀點摘錄。抓住知識型員...

4個Linux伺服器監控工具

下面是我想呈現給你的4個強大的監控工具。你可能知道在機器上檢視實時程序的標準工具top。如果不知道,請執行 top看看,執行 man top閱讀幫助手冊。htop是top的擴充套件版本,有更豐富的概貌 例如全命令 視覺化 圖形使用者介面gui和使用者介面ui 有滑鼠點選互動 譯者注 看下面的截圖,指...