AWS事故總結,幾招教你規避風險

2021-07-28 00:01:32 字數 290 閱讀 3185

王煜奕 

美國時間 2 月 28 日,亞馬遜aws維吉尼亞州資料中心出現單點儲存區域故障,使得其雲儲存服務 s3 出現了較高的錯誤率,造成長達2小時的服務不可用。netflix、airbnb 、slack、spotify、雅虎網路郵箱等網際網路服務受到明顯影響。

亞馬遜的本次『失誤』也在警示業界所有雲計算廠商,在雲服務日益發展的今天,雲儲存的資料可靠性和服務可用性應該如何保障。當企業應對人為誤操作、軟體錯誤、病毒入侵等「軟」性災害和硬體故障、自然災害等「硬」性災害,應該如何實現穩定的容災?如何實現高效的容災?如何實現低成本的容災?

生產事故或缺陷總結

10月30日 今天出了個生產問題,支行機構資訊有個字段未展示出來。由於字段展示區域不顯眼,非主流程,主功能可正常使用,測試人員在測試階段未發現問題。未避免後續問題,建議在測試階段,開發人員就應該關注全天日誌資訊,排查問題。所有介面入參及出參,都需要日誌列印。資料庫入幫時,為指定型別,當字段為空時,是...

city 資料庫遷移事故總結

2014年09月03日億萬城市專案由於需要縮減外網機器,對資料庫進行遷移,導致外網部分玩家資料異常,造成一起事故。總結了一下其中發生的問題 1 起初考慮熱遷移,但是專案中沒有類似功能支援,所以選擇了停服遷移 建議 不論結果如何都產生負面影響,資料庫熱遷移應該作為專案最基本的研發需求,在專案啟動初期開...

一次刪庫事故總結

在原來的資料庫設計中並沒有進行外來鍵的設計,缺少資料完整性約束。在此專案中,事先沒有進行全量備份,沒有開啟binlog無法恢復原先的資料。萬幸,被覆蓋的表只是一張關係表,關聯了teacher表和course表,而不是儲存著元資料的表。通過select查詢相關表的資料,並且由於在磁碟的路徑能夠體現出記...