Google詮釋其它企業在實施SRE中的錯誤

2021-09-17 07:43:55 字數 1639 閱讀 5777

thorne補充說,slo是先期發現問題的基礎,理想情況是先於客戶感受到問題的影響。好的slo應符合客戶的輸出(例如服務可用性、響應時間等),從而反映出乙個系統(行為)是否滿足使用者的需求。系統監視資源的使用情況(例如cpu利用率、網路吞吐量等),但這些度量本身不應做為slo。thorne認為,「如果客戶滿意,那麼就滿足slo」。google的一些典型slo包括:\\

另一方面,sla通常在客戶已對服務產生不滿意時才發揮作用,因此sla並不會主動提高系統的可靠性。此外,sla可能會引發錯誤的行為。例如,如果同時面對乙個兩小時修復電子郵件問題的sla和乙個一天內修復生產系統嚴重問題的的sla,按規程會導致首先處理乙個(或多個)電子郵件問題。但是很顯然,生產系統出現的問題應該得到優先處理。

\\ thorne警告說,僅定義slo是不夠的。錯誤預算策略是通過設定明晰的操作規則(而非貨幣補償),在系統接近於slo的閾值之前達成slo。一旦系統無法滿足使用者的需求,slo也可以最大限度減少運維和開發之間的對抗。thorne指出,「錯誤預算是存在於完美可靠性與slo之間的差距」。google的典型錯誤預算政策是,一旦應用用盡其錯誤預算(例如,本月已超出43分鐘的宕機時間預算),就禁止啟動新功能;或者根據前期事故後分析(post-mortem analysis)所給出的更正操作,專門建立乙個sprint。

\\ 然而thorne強調指出,一些適用於google的做法並非適用於每個組織。「sre需要slo,結果是在可接受的失敗水平與必要的成本和交付速度之間取得平衡」。準確的slo和政策必須適用於特定的組織,而不是複製和貼上google的做法,並且應該是聚焦於不斷改善客戶體驗,而不是設定一些可能適得其反的崇高目標或嚴厲懲罰。thorne在演講中給出了乙個例子,乙個組織在努力降低推薦系統的處理時間。原先使用者平均在6小時後回訪**,才會看到這些推薦情況。乙個適當的slo將在6小時內處理所有建議,這意味著務可以省下三位解決響應時間慢「問題」的非全職工程師工作。

\\ thorne提出sre的第三個關鍵問題,即sre團隊應能夠平衡日常(通常是無計畫的)運維和規劃工作間的工作量,以降低人員的操勞(也稱為「滅火」)。在google,這意味著至少有50%的sre是用於專案工作,包括盡早研判新系統的架構,發現其中的彈性反模式(resiliency anti-pattern),並避免此後更多的操勞;改進監控,自動執行重複的任務,或協調故障後糾正措施的實施。

\\ thorne進一步明確給出了一些實現sre的反模式。例如,在並未率先讓sre原則和機制(slo、錯誤預算政策和平衡工作負載)落地的情況下,僅是將運營團隊重新命名為sre團隊,或僅是僱傭一些sre工程師。

\\ thorne認為sre的成功實施之路具有5個關鍵步驟:

\\ 根據場景定義聚焦於客戶的slo;\\t

定義合理的錯誤預算策略;\\t

僱傭(內部或外部)sre人員,並在領導層支援的情況下對他們授權;\\t

支援sre優化調整slo,並強制執行錯誤預算策略;\\t

將任務關鍵系統的可靠性責任指定給sre團隊,其它系統的責任指定給相應的開發團隊。\

google在將自身的經驗教訓彙總為《sre寶典——google生產系統是如何運維的》一書之前,就已在企業內部開發並擴充套件sre原則達數年之久。throne提及,google將於月末推出相應的《sre工作手冊》一書。

\\檢視英文原文:google explains why others are doing sre wrong

Google詮釋其它企業在實施SRE中的錯誤

thorne補充說,slo是先期發現問題的基礎,理想情況是先於客戶感受到問題的影響。好的slo應符合客戶的輸出 例如服務可用性 響應時間等 從而反映出乙個系統 行為 是否滿足使用者的需求。系統監視資源的使用情況 例如cpu利用率 網路吞吐量等 但這些度量本身不應做為slo。thorne認為,如果客戶...

Google「企業應用套件」註冊

前陣子看了 統一牌im帳號 覺得這是提高個人品牌的有效方式,一想到我有乙個canbeing.com的網域名稱已經荒廢將近兩年,這次不煩用它來做個郵局也不錯,哈哈。一 沒有郵箱,直接註冊失敗。首先想到的是去註冊google的企業應用套件,但老讓我去收郵件啟用,但我的網域名稱根本就還沒有郵件服務,收不了...

在Google「讀書」 Google大學免費開學

如果有人告訴我,他僅靠google搜尋資料便自己完成了mba教程,我不會感到格外驚訝 在內容豐富的google檢索資訊中,你可以找到幾乎任何以文字 圖象 錄影 錄音形式存在的學習資料,這些共享和 洩漏 的資源,足以媲美任何乙個大學的圖書館。想要在google中 讀書 你需要滿足如下條件 1.一台功能...