AWS事故總結，幾招教你規避風險

2021-07-28 00:01:32 字數 290 閱讀 3185

王煜奕

美國時間 2 月 28 日，亞馬遜aws維吉尼亞州資料中心出現單點儲存區域故障，使得其雲儲存服務 s3 出現了較高的錯誤率，造成長達2小時的服務不可用。netflix、airbnb 、slack、spotify、雅虎網路郵箱等網際網路服務受到明顯影響。

亞馬遜的本次『失誤』也在警示業界所有雲計算廠商，在雲服務日益發展的今天，雲儲存的資料可靠性和服務可用性應該如何保障。當企業應對人為誤操作、軟體錯誤、病毒入侵等「軟」性災害和硬體故障、自然災害等「硬」性災害，應該如何實現穩定的容災？如何實現高效的容災？如何實現低成本的容災？

生產事故或缺陷總結

10月30日今天出了個生產問題，支行機構資訊有個字段未展示出來。由於字段展示區域不顯眼，非主流程，主功能可正常使用，測試人員在測試階段未發現問題。未避免後續問題，建議在測試階段，開發人員就應該關注全天日誌資訊，排查問題。所有介面入參及出參，都需要日誌列印。資料庫入幫時，為指定型別，當字段為空時，是...

city 資料庫遷移事故總結

2014年09月03日億萬城市專案由於需要縮減外網機器，對資料庫進行遷移，導致外網部分玩家資料異常，造成一起事故。總結了一下其中發生的問題 1 起初考慮熱遷移，但是專案中沒有類似功能支援，所以選擇了停服遷移建議不論結果如何都產生負面影響，資料庫熱遷移應該作為專案最基本的研發需求，在專案啟動初期開...

一次刪庫事故總結

在原來的資料庫設計中並沒有進行外來鍵的設計，缺少資料完整性約束。在此專案中，事先沒有進行全量備份，沒有開啟binlog無法恢復原先的資料。萬幸，被覆蓋的表只是一張關係表，關聯了teacher表和course表，而不是儲存著元資料的表。通過select查詢相關表的資料，並且由於在磁碟的路徑能夠體現出記...