十個應對資料中心宕機的措施與方法

2021-09-22 23:28:12 字數 3094 閱讀 1553

雖然資料中心的設計在理論上不會發生故障,但它確實會出現這種情況,因此資料中心運營商將面臨非常嚴峻的情況,特別是託管資料中心。

根據最近發生的一些事情,表明託管資料中心遭遇停電和業務中斷的後果是十分嚴重的。例如:英國電信公司是全球最大的通訊商和託管資料中心商之一,其運營的資料中心今年遭遇兩次宕機事件。據報道,由於故障影響,倫敦及其周邊地區的語音和資料流量下降了10%,事故時間長達四小時以上。

儘管在設計和執行資料中心時努力避免中斷或事故,但資料中心託管設施並不能避免這些問題,其短期和長期的意外中斷都將是代價高昂的。如果客戶選擇放棄服務,企業可能會因不符合服務等級協議(sla)而受到經濟處罰,也可能會對企業的品牌造成長期的損害,並對業務收入造成損失。

從資料中心的角度來看,應該做什麼或不應該做什麼以防止中斷事故的發生,是乙個非常簡單道理。但是,如果作為資料擁有者,並且其資料中心解決方案存在失誤,那麼這是乙個不同的結論。如果企業客戶已經做出戰略決定,將其資料放在外部資料中心,並進行了風險分析。但這樣就真的做好應對最壞結果的準備好了嗎?問題是,如果企業客戶發現自己處在這種情況下該怎麼辦?

對最壞情況做好準備的最好辦法是不斷地解決這個可能性。如果失敗,組織的努力準備和對流程的認識將為其提供減輕失敗的資源和工具。如果企業沒有考慮或者沒有這樣做,那麼建議從以下幾個方面評自己的情況。

1. 分散風險

首先,當企業制定資料中心戰略時,應避免將所有資料放在一處,這樣做會增加風險因素。同樣的道理,也避免將所有關鍵應用程式放在同一位置。考慮將主要的資料存放在乙個位置,並將備份資料存放在另乙個位置。然後逐步了解每個場景,並確定任何級別的故障將產生怎麼樣的影響。每年重複一次這個過程。

2. 信任但要驗證

企業從服務提供商獲得審核記錄,更重要的是認真審查。在許多情況下,託管資料中心需要審計是否符合hipaa,sox和pci等規定。然而有時候,這種審查可能是由不完全了解it或資料中心如何運營的人員來完成。因此,企業需要安排了解資料中心如何可靠運營的專業人士進行審核。這些第三方審核通常比他們自己識別的風險要容易得多,並且可以提供的資訊更加豐富。在大多數情況下,與發生中斷事故的成本和運營成本相比,通過審查和驗證措施減輕風險的成本通常是最小的。

3. 簽署書面協議

企業需要知道資料中心託管提供商將如何處理中斷事故。在與**商簽訂合同時,堅持簽署書面協議,承認雙方同意在什麼情況將造成中斷。這一點至關重要。事實上,資料擁有者發現有時協議並沒有涵蓋他們的想法。此外,還要書面上保證**商在中斷期間所提供的服務,並承諾在可接受的時間內恢復。

4. 備份策略

企業一定要了解自己的業務面臨的風險,並為最壞的情況做好準備。大多數託管資料中心都有乙個替代的站點,可以處理基本的災難恢復,以確保他們的客戶對運營幾乎沒有影響。大多數公司仍在追求在資料中心(託管資料中心,雲計算或者內部部署)中部署雙活資料庫。雖然有些雙活部署接近成功,但在嘗試使用災難恢復備份時,其中斷卻讓人痛苦。資料庫沒有企業期望的那樣完整,資料丟失或應用程式在故障轉換期間很可能受到影響。

5. 了解(並記錄)流程

在事故出現的時候,所有各方都進入危機模式。了解(並記錄)企業的託管服務提供者如何處理自然災害和故障元件等事件很重要。那麼採取什麼步驟和順序?企業要問的乙個重要問題是在發生故障時誰可以訪問?事故發生後,其他企業也會訪問這個伺服器。企業需要準確了解其是否可以訪問,訪問許可權,誰能訪問,以及在訪問時允許執行的操作。此外,還要知道在修復期間將採取什麼額外的安全措施來保護其資料。

這個過程的重要組成部分是通訊協議。開放溝通對於有效管理情況至關重要,並為企業的管理者提供更新資訊。企業需要知道誰是主要聯絡人,聯絡誰來獲取更新,以及更新的頻率。另外,定期驗證聯絡人的姓名和**號碼。重要的是,如果呼叫列表中的**號碼作廢或聯絡人員離職,那麼這種情況將會更糟。

6. 儲存記錄文件

文件不僅適用於託管資料中心,而且適用於所有與資料中心業務相關的公司。在調查中發現,許多客戶沒有記錄他們的日常運營流程和程式。就算有記錄,也沒有經常進行更新。文件對於在發生災難時做好準備至關重要,這其中包括:了解應用程式執行的位置,知道中斷哪些受到影響最大,誰需要了解更改等。

7. 了解失敗案例

在評估過程中,大多數託管資料中心商都會告訴企業,系統是如何安裝的,以防止服務中斷。他們還給為企業提供滿意的客戶的推薦和參考。但他們通常不會告訴他們失敗的案例。

因此,組織要了解託管服務商的失敗案例,需要詢問他們是否在過去一年遇到事故,如果有過事故,要了解事故的細節,如何糾正,以及採取了哪些步驟來防止再次發生事故。企業可以在這些案例中學到很多關於託管資料中心的知識,以及他們如何處理這種情況。處理危機才是考驗合作夥伴是否合格的時候。

8. 了解免責條款

如果企業對託管服務的合作夥伴失去信心,請務必了解合約中的免責條款,這有助於企業順利地中止合作。確保合同沒有採用模糊的語言描述,避免被不合理的條款所限制。

9. 了解自己的選項

大多數託管資料中心的合同期限為幾年的時間,在此期間,託管資料中心市場的規模將擴大,新的廠商進入市場。雖然企業可能目前不會尋求採用新的託管資料中心,但應該不斷評估其他提供商,或與顧問或經紀人一起審查自己的選擇。如果發生失敗,企業必須知道移動到新的解決方案的選擇。在某些情況下,如果失敗是重大的或花費的時間太長,那麼後果可能會迫使託管資料中心停止營業,讓組織的業務遭受損失。

10. 成為資料中心行家

在英國電信公司的失敗案例中,其問題的原因是乙個斷路器發生故障。雖然有人會認為關鍵設施會避免單點失敗,但證據表明並不是這樣。如今,組織運營資料業務,就必須成為資料中心的行家。組織不但要熟知資料中心的知識,而且還要了解市場趨勢。

通過詢問問題和閱讀報告,可以了解資料中心解決方案的各個方面情況。最重要的是,知道潛在的失敗點,了解什麼情況可能導致中斷。人們都希望中斷或失敗永遠不會出現。但是,如果這樣做,企業必須為此做好準備好,並指導其團隊。最好的建議是在這些故障情況下制定乙個計畫,並按部就班遵循這個計畫。溝通對計畫的成功至關重要,因為人們在發生失敗可能會不耐煩,但他們必須遵守執行。通過定期檢查這些重要領域,將會獲得有效地應對中斷或失敗的知識和經驗。

你知道資料中心宕機的真正成本嗎?

資料中心對企業至關重要,根據調研機構idc研究表明,之後全球每兩年所產生的資料量將會翻一番,這將為企業使用技術增加收入 提高業務績效提供了更多的機會,而利用這些機會的關鍵就在於資料中心。但是,隨著資料量的增加,資料中心基礎設施也面臨著更大的壓力。安全提供商賽門鐵克公司對2400多名it專業人士做了相...

應對資料中心的能源效率挑戰

鑑於剛剛過去的十月份被資料中心業界宣傳推廣為節能宣傳月 energy awareness month 同時世界能源日 world energy day 也於10月22日正式舉行,能源效率問題再一次成為了許多資料中心管理人員所備受關注的話題。雖然對於跨諸多行業的專業人士來說,能源效率都是乙個相當重要的...

應對資料中心的能源效率挑戰

鑑於剛剛過去的十月份被資料中心業界宣傳推廣為節能宣傳月 energy awareness month 同時世界能源日 world energy day 也於10月22日正式舉行,能源效率問題再一次成為了許多資料中心管理人員所備受關注的話題。雖然對於跨諸多行業的專業人士來說,能源效率都是乙個相當重要的...