SRE 超載系統導致,谷歌發布宕機事故分析報告

2021-09-20 00:07:37 字數 840 閱讀 6638

谷歌發布了 12 日大面積服務中斷事故的分析報告,指出系 sre 超載系統使得 google 雲儲存錯誤率提高導致。

12 日全球各地的許多使用者反映使用 gmail、youtube、google drive、谷歌**與谷歌的其它服務時都遇到了問題,包括北美洲、南美洲、歐洲和亞洲的部分地區都受到影響,谷歌隨後承認出現故障,谷歌雲平台狀態頁面(google cloud status dashboard)顯示,此次故障影響了谷歌云儲存的所有區域。

當地時間 14 日,谷歌發布了針對該事件的分析報告。

谷歌表示內部 blob(大型資料物件)儲存服務經歷了 4 小時 10 分鐘的服務中斷。分析了根本原因,其指出在 3 月 11 日,google sre 被告警內部 blob 服務使用的元資料的儲存資源顯著增加;3 月 12 日,為了減少資源使用,sre 進行了配置更改,其***是使系統的關鍵部分超載以查詢 blob 資料的位置,而增加的負載最終導致級聯故障

更具體的,12 日 18:40 到 22:50,谷歌內部 blob 儲存服務錯誤率提高,平均錯誤率為 20%,事件發生時錯誤率為 31%,使用者可見的 google 服務,包括使用 blob 儲存服務的 gmail、**和 google 雲硬碟錯誤率也提高了,如果沒有這些服務中內建的快取和冗餘機制極大地降低了使用者影響,那麼後果會更加嚴重。

谷歌表示非 google 雲平台服務受到的影響將會有單獨的事件報告。

對於因此事件受到影響的服務與應用客戶,谷歌深表歉意,並表示正在採取措施以提高可用性並防止此類中斷再次發生。

詳情檢視:

SRE之道 創造軟體系統來維護系統執行

引言 本文作者ben treynor sloss,google 運維團隊的高階副總裁,sre 名稱的發明者,在這裡提供了他對sre 的定義。本文選自 sre google運維解密 大家都知道,計算機軟體系統離開人通常是無法自主執行的。那麼,究竟應該如何去運維乙個日趨複雜的大型分布式計算系統呢?僱傭系...

SRE之道 創造軟體系統來維護系統執行

引言 本文作者ben treynor sloss,google 運維團隊的高階副總裁,sre 名稱的發明者,在這裡提供了他對sre 的定義。本文選自 sre google運維解密 大家都知道,計算機軟體系統離開人通常是無法自主執行的。那麼,究竟應該如何去運維乙個日趨複雜的大型分布式計算系統呢?僱傭系...

php getimagesize 導致系統變慢

用這個函式獲取寬高度 handle fopen url,rb or die could not open url die exit new block fread handle,800 resultt exif read data data image jpeg base64,base64 enco...