了解常見的 Azure 災難

2022-08-04 21:51:22 字數 2352 閱讀 9615

以下內容涵蓋多種不同型別的災難情況。資料中心故障不是應用程式範圍內發生故障的唯一原因。設計不良或管理錯誤也會導致中斷。請在恢復計畫的設計和測試階段設想可能導致故障的原因,這樣做很重要。乙個好的計畫可充分利用 azure 功能,並通過應用程式特有的策略強化這些功能。由應用程式的重要性、rpo 和 rto 規定所選的響應。

應用程式故障

如前所述,azure 結構控制器會自動處理因主機虛擬機器中的底層硬體或作業系統軟體引起的故障。azure 會在正常執行的伺服器上建立新的角色例項,然後將其新增到負載平衡器輪換中。如果角色例項數大於一,azure 會將處理過程切換到其他正在執行的角色例項,同時替換發生故障的節點。

但是,還會發生與任何硬體或作業系統故障無關的嚴重應用程式錯誤。應用程式可能因邏輯錯誤或資料完整性問題導致的災難性異常而發生故障。必須在**中加入足夠的遙測,以使監視系統可檢測到故障情況並通知應用程式管理員。完全了解災難恢復過程的管理員可決定呼叫故障轉移過程,也可以簡單接受可用性中斷以解決關鍵性錯誤。

資料損壞

azure 自動將你的 azure sql database 和 azure 儲存資料在同一資料中心內的不同容錯域中冗餘地儲存三次。如果使用異地複製,則再將這些資料在另乙個資料中心內儲存三次。但是,如果使用者或應用程式損壞了主副本中的資料,則會將損壞情況迅速複製到其他副本。不幸的是,這將產生三份損壞的資料。

若要應對可能的資料損壞,將需要管理你自己的備份,以保持事務一致性。你可以將備份儲存在 azure 中或儲存在本地,具體取決於你的業務需求或治理監管。有關詳細資訊,請參閱災難恢復的資料策略部分。

網路中斷

當 azure 網路的某些部分中斷時,你可能無法訪問應用程式或資料。如果乙個或多個角色例項因網路問題而不可用,則 azure 將利用應用程式剩餘的可用例項。如果應用程式因 azure 網路中斷而無法訪問其資料,則可以通過使用快取資料在本地以降級模式執行,因此需要在應用程式中為在降級模式下執行制定災難恢復策略。某些應用程式可能做不到這一點。另乙個選項是將資料儲存在備用位置,直到連線恢復。如果降級模式不是好辦法,則剩餘的選項為產生應用程式停機時間或故障轉移到備用資料中心。設計在降級模式下執行應用程式多出於業務決策而非技術決策。應用程式功能降級部分深入討論了這一問題。

依賴服務故障

azure 提供的許多服務可能會定期停機。設想 azure shared caching 為例。這項多租區服務向應用程式提供快取功能。設想如果依賴服務不可用,應用程式中將發生什麼,這樣做很重要。此方案在許多方面與網路中斷方案類似,但是,單獨考量每一項服務有望改進整個計畫。

例如,通過 caching,多租區共享快取模型有乙個相對較新的備選項。通過角色上的 azure caching,可從雲服務部署中快取到應用程式。(建議今後也這樣使用 caching)。雖然它有乙個限制,只能從單個部署中訪問它,但有可能使災難恢復獲益。首先,服務現在執行在你的部署本地的角色上。因此,在雲服務的總體管理過程中,可更好地監視和管理快取的狀態。但是,這種型別的快取也公布了新功能。其中乙個新功能是快取資料的高可用性。此功能通過在其他節點上保留重複的副本,幫助在乙個節點發生故障時保留快取資料。請注意,高可用性會降低吞吐量並增大延遲,因為需要在寫入時更新輔助副本。它還會將每項使用的記憶體量加倍,因此要為此做好規劃。這個具體的示例表明,每項依賴服務都可能具有提高總體可用性和幫助抵禦災難性故障的能力。

通過每個依賴服務,應了解可能產生的總中斷數。在 caching 的示例中,或許可以直接從資料庫訪問資料,直到 caching 功能恢復為止。在效能方面,這將是降級模式,但可提供資料方面的完整功能。

資料中心發生故障

以前的故障主要還是可在同一 azure 資料中心內應對的故障。但是,還必須為整個資料中心發生故障的可能性做好準備。當資料中心發生故障時,資料的本地冗餘副本不可用。如果啟用了異地複製,則在異地資料中心內另有 blob 和表的 3 個副本。當 microsoft 聲稱資料中心發生故障時,azure 會將所有 dns 條目將重新對映到異地複製的資料中心。注意,你對此過程無任何控制權,並且僅對整個資料中心範圍的故障進行此過程。因此,還必須依靠應用程式特有的其他備份方法才能達到最高端別的可用性。有關詳細資訊,請參閱災難恢復的資料策略部分。

azure 發生故障

在災難規劃中,必須考慮到所有可能發生的災難情況。最嚴重的乙個故障將同時涉及所有 azure 資料中心。如同任何其他故障一樣,你可能決定在這種情況下甘冒停機時間的風險。跨越多個資料中心的廣泛故障應比涉及依賴服務或單個資料中心的孤立故障少見得多。但是,對某些任務關鍵型應用程式而言,你可能決定還必須為此方案制定備份計畫。針對此事件的計畫可能包括故障轉移到備選雲或混合本地和雲解決方案中的服務。

Azure上幾種常見的VM複製操作

對於很多新上手使用azure 虛擬機器的客戶,常常有做快照,做映象,複製os盤等的需求,有時會出現沒有事先閱讀到azure.cn上對應部分的文件,建立完虛擬機器下意識在portal上點了錯誤的按鈕出現 意料之外的停機 的情況,因此這裡針對常見的vm複製的需求和操作做乙個簡單的梳理,以截圖的方式幫助我...

HTML常見的BUG 了解

雙倍浮向 如果乙個元素新增float left並且有margin left 在ie6中顯示兩倍的margin值 hack 給元素新增display inline 預設大小 讓元素高度保持乙個最小的高度16px左右。hack 用font size 0 或者是overflow hidden 網頁中按鈕元...

margin引起的災難

這兩日為做一張網頁而頭破血流,虧得我是男兒,流血不流淚。眾所周知網頁由一塊塊組成,常用div。而塊與塊之間的因美觀需求需要對內外邊距調節,因此要注意到盒子模型 由上面兩幅圖得出 margin外邊距也是盒子中的一部分,而我們時常是根據內部的各div尺寸總和定外層div的尺寸,卻忽略了margin的尺寸...