了解 Azure VM 的系統重啟

2022-02-16 06:28:47 字數 2560 閱讀 6860

有時 azure 虛擬機器 (vm) 可能重啟,即使沒有明顯原因,也沒有證據表明使用者發起重啟操作。 本文列出了可導致 vm 重啟的操作和事件,並針對如何避免意外重啟問題或減少該問題影響提供見解。

若要防止 azure 上執行的應用程式出現任何型別的 vm 重啟和停機問題,最佳方式是配置 vm 以實現高可用性。

若要為應用程式提供此級別的冗餘,建議兩個或更多 vm 組合到乙個可用性集中。 這種配置可確保發生計畫內或計畫外維護事件時,至少有乙個 vm 可用,並滿足 99.95% 的 azure sla 要求。

有關可用性集的詳細資訊,請參閱以下文章:

azure 在全球範圍內定期執行更新,提高 vm 所基於主機基礎結構的可靠性、效能及安全性。 許多更新(包括記憶體保留更新)在執行時不會對 vm 或雲服務產生任何影響。

但是,有些更新確實需要重啟。 vm 會在修補基礎結構期間關閉,隨後 vm 會重啟。

若要了解什麼是 azure 計畫內維護,及其如何影響 linux vm 的可用性,請參閱以下文章。 這些文章介紹了 azure 計畫內維護過程的背景,以及如何安排計畫內維護以進一步減少影響。

對於 azure 中的這類更新,客戶會發現它們對執行中 vm 沒有任何影響。 其中一些更新主要面向元件或服務,更新時不會干擾正在執行的例項。 還有一些是主機作業系統上的平台基礎結構更新,應用時無需重啟 vm。

這些記憶體保留更新通過啟用就地實時遷移技術實現。 更新時,vm 進入「暫停」狀態以保留 ram 中的記憶體,基礎主機作業系統則接收必要的更新和補丁。 vm 在暫停後 30 秒內恢復正常。 恢復後,vm 的時鐘將自動同步。

並非所有更新都可通過此機制進行部署,但如果暫停時間較短,使用此方法部署更新可大大減少對 vm 的影響。

多例項更新(針對可用性集中的 vm)一次應用乙個更新域。

note

具有舊核心版本的 linux 計算機在此更新方法期間受核心錯誤影響。 若要避免此問題,請更新到核心版本 3.10.0-327.10.1 或更高版本。 有關詳細資訊,請參閱主機節點公升級後基於 3.10 核心的 azure linux vm 出現錯誤。

如果從 azure 門戶、azure powershell、命令列介面或重置 api 執行重啟,則可在 azure 活動日誌中找到該事件。

如果從 vm 的作業系統執行重啟,則可在系統日誌中找到該事件。

通常導致 vm 重啟的其他方案包括多個配置更改操作。 通常情況下,使用者會看到一條指示執行特定操作將導致 vm 重啟的警告訊息。 示例包括任意 vm 大小調整操作、更改管理帳戶密碼和設定靜態 ip 位址。

在其他情況下,azure 可能主動暫停使用 vm。 使用者可在執行此操作前收到電子郵件通知,以便他們有機會解決該基礎問題。 示例包括安全衝突和已過期的過期付款方式。

在 azure 資料中心內執行的物理伺服器上託管 vm。 除了其他幾個 azure 元件外,物理伺服器也執行名為「主機**」的**。 如果物理伺服器上的這些 azure 軟體元件無響應,則監視系統會觸發主機伺服器重啟,嘗試恢復。 vm 通常在五分鐘內再次可用,並繼續像以前一樣存在於同一主機上。

伺服器錯誤通常由硬碟或固態硬碟等硬體故障引起。 azure 持續監視這些事件,確定基礎 bug,並在實現和測試緩解舉措後推出更新。

由於某些主機伺服器錯誤可能特定於該伺服器,因此可通過手動將其重新部署到其他主機伺服器來改善 vm 重複重啟的情況。 在 vm 詳細資訊頁上使用「重新部署」選項,或在 azure 門戶中停止並重啟 vm,可觸發此操作。

如果出於某種原因,主機伺服器不能重啟,azure 平台會啟動自動恢復操作,使發生故障的主機伺服器脫離輪換,以便展開進一步調查。 該主機上的所有 vm 均自動重新定位到其他執行正常的主機伺服器。 此過程通常在 15 分鐘內完成。 此部落格介紹了自動恢復過程:vm 自動恢復。

在少數情況下,azure 運營團隊可能需要執行維護活動,確保 azure 平台整體執行正常。 此行為可能影響 vm 可用性,並且通常會引發與前述相同的自動恢復操作。

計畫外維護包括以下內容:

vm 可能因 vm 本身問題重啟。 在 vm 上執行的工作負荷或角色可能觸發來賓作業系統內的 bug 檢查。 為幫助確定故障原因,請檢視系統和應用程式日誌(適用於 windows vm)和序列日誌(適用於 linux vm)。

對於在 azure 儲存基礎結構上託管的作業系統和資料儲存,azure 中的 vm 依賴於虛擬磁碟。 每當 vm 和關聯虛擬磁碟之間的可用性或連線性受影響超過 120 秒時,azure 平台會強制關閉 vm,避免資料損壞。 儲存連線還原後,vm 自動重啟。

超過 io 限制

如果 i/o 請求因每秒輸入/輸出運算元 (iops) 超出磁碟 i/o 限制(標準磁碟儲存限制為 500 iops)而持續受到限制,則可能暫時關閉 vm。 為緩解此問題,請在來賓 vm 中使用磁碟剝離或配置儲存空間,具體情況取決於工作負荷。 有關詳細資訊,請參閱配置 azure vm 以獲得最佳儲存效能。

通過 azure 高階儲存提供高達 80,000 iops 的 iops 限制。 有關詳細資訊,請參閱高效能高階儲存。

在極少數情況下,普遍的問題可能影響 azure 資料中心內的多台伺服器。 如果發生這種情況,azure 團隊會向受影響訂閱者傳送電子郵件通知。 可檢視 azure 服務執行狀況儀表板和 azure 門戶,了解正在進行的服務中斷和過去事件的狀態。立即訪問

android 系統關機,重啟

android 系統關機,重啟 1.android系統的關機,重啟 位於frameworks base core jni android os power.cpp,裡面有 static void android os power shutdown jnienv env,jobject clazz s...

Windows Mobile 軟重啟系統

在編寫windows mobile上的應用系統時,因為特殊的業務需要,需要通過軟體重啟手機,net 託管api中不包含該介面,自己封裝了乙個。public const uint file device hal 0x00000101 public const uint method buffered ...

android 系統關機,重啟

android 系統關機,重啟 1.android系統的關機,重啟 位於frameworks base core jni android os power.cpp,裡面有 static void android os power shutdown jnienv env,jobject clazz s...