如何從SLB故障中快速恢復

2021-09-23 17:43:39 字數 660 閱讀 8976

3月14日17:32-19:10時段,阿里雲杭州區可用區e的大量slb出現服務不可用的問題,疑似健康檢查系統出現故障,所有後端節點不論是否監控都一律都被標記為"異常",導致tcp slb的服務connection failed, http slb出現502錯誤。

小博無線線上業務系統完全基於阿里雲搭建,在杭州區e可用區也部署了多個slb作為流量接入點,在阿里雲出現故障超過90分鐘的情況,小博無線技術團隊卻只用了不到20分鐘就完全恢復了業務接入,我們是如何做到的?

17:38 運維團隊收到某關鍵服務不可用的告警。登入阿里雲控制台檢視發現該業務對應的slb的所有後端節點均為"異常"狀態,但是我們自己內部的監控系統顯示這些節點都是健康的,同時,還有多個slb存在類似的情況並且都位於可用區e,於是懷疑該可用區的健康檢查系統出現故障。

17:50 配置dns,停止到出故障的slb的ip解析。幾分鐘後觀察到故障slb上的流量已幾乎全部漂移到正常的slb上,業務全面恢復正常。

對關鍵服務的接入點的服務質量每隔兩分鐘檢查一次,如果連續3次不可用,推送告警到開發運維人員的手機上。這樣,17:32出現故障,6分鐘後,開發運維團隊在17:38就收到了告警,能快速響應故障。

為關鍵服務配置兩個位於不同可用區的slb作為流量接入點,並對它關聯的網域名稱做dns負載均衡。這樣,即便乙個可用區的slb出現故障,停止到故障slb的ip解析就可快速恢復。

13 2 2 從故障中恢復

13.2.2 從故障中恢復 世界銀行服務對每個使用者金鑰每一天請求數量有限制,也限制了請求的頻率。這意味著,如果我們一次執行大量的請求,有些可能會返回錯誤。解決方法是捕獲異常,稍後重試請求。清單 13.7 實現乙個迴圈,重複執行的請求,直到成功,或者嘗試 20 次。使用異常報告失敗,使用 f 的 t...

13 2 2 從故障中恢復

13.2.2 從故障中恢復 世界銀行服務對每個使用者金鑰每天請求數量有限制,還限制了請求的頻率,因此,如果我們一次執行大量的請求,有可能會出錯。解決的方法是捕獲異常,稍後重試請求。清單 13.7 實現的迴圈,重複執行請求,直到成功,或者嘗試 20 次為止。使用異常報告失敗,使用 f 的 try wi...

13 2 2 從故障中恢復

13.2.2 從故障中恢復 世界銀行服務對每個使用者金鑰每一天請求數量有限制,也限制了請求的頻率。這意味著,如果我們一次執行大量的請求,有些可能會返回錯誤。解決方法是捕獲異常,稍後重試請求。清單 13.7 實現乙個迴圈,重複執行的請求,直到成功,或者嘗試 20 次。使用異常報告失敗,使用 f 的 t...