SRE Google運維解密 心得

2021-09-12 01:54:16 字數 685 閱讀 6759

在乙個執行的系統中,出現風險是不可能避免的,而運維工程師的存著便是控制並解決風險。

書中提到構建百分百可靠的服務是不可取的,因為乙個服務面向使用者的不止是可靠,還有創新。當可靠性達到一定的數量級後,再花費大量的成本在可靠性上而忽略服務的創新,這種方式得不償失。

書中還提到可用性為多少個『9』這個概念

上面提到額外乙個『9』便是向100%可用性的數量級上的提高,但同樣提高乙個『9』所花費的成本也是需要考慮的。

指在服務在季度中可以接受多少不可靠性,允許出多少錯。

錯誤預算出現的原因:(兩個團隊的關注點衝突)

其目的是平衡兩個團隊在關注點的衝突,給這個衝突提供乙個緩衝區。

當這個緩衝區還未滿時,研發可以提高創新速度。

當這個緩衝區快滿時,研發就需要更多的考慮可靠性。

乙個公司的最終目的便是盈利,在可用性和成本之間是需要一定的權衡。

使用者對產品的體驗也是需要在可靠性和創新之間權衡。

而使用者對不同的產品敏感度也是不同的,在不同產品中的可靠性也需要權衡。

可靠性團隊與創新團隊的關注點衝突也需要權衡。

讀SRE Google運維解密有感 二

這是讀 sre google運維解密 有感第二篇,第一篇參見 這本書最近又讀了幾章,結合自己的經歷,有些地方真的能感同身受,有些地方也驚嘆sre充滿辯證的思想,總之sre是好一本好書,會給你很大的啟發。本書主要是講通過sre思想進行運維體系的構建,除了技術層面以外,我更關注sre內在充滿辯證的思想。...

SRE Google運維解密 第一章

研發 dev 與運維 ops 分離導致的問題 直接成本 隨著產品及專案增多,相應人員線性增加。間接成本 研發與運維團隊背景各異,技術能力與工具使用習慣存在差距,工作目標不同 研發與運維團隊對產品可靠程度要求不同,具體執行某項操作的危險程度評估與技術防範措施不同。以上逐漸演變成目標與方向上的分歧及形成...

運維心得 如何應對停電

運維工作中,經常會碰到停電的事情,有臨時檢修的,有消防演習的 當然最好只是演習 有故障巡檢的。首先,停電前的準備。弄清楚停電的時間以及持續的時間,然後第一時間傳送停電通知和電腦裝置的關閉通知,通知大家要在停電前備份資料並關閉電腦。如果是週末,那麼一些裝置最好在停電之前關閉。那些裝置呢?個人認為,主要...