攜程網癱瘓超8小時,可能故障原因分析

2021-09-17 19:26:49 字數 1190 閱讀 6069

物理刪除是指檔案儲存所用到的磁儲存區域被真正的擦除或清零,這樣刪除的檔案是不可以恢復的。如果攜程的資料庫被物理刪除,那損失不可估量。不過,攜程網已經明確表示資料庫被物理刪除純屬謠言,所有的訂單資料都儲存完整。從技術角度來看,物理刪除的速度非常慢,攜程那麼多的資料在短時間內被刪除的可能性不大。所以這一猜測基本可以被否認。

\\ 另外乙個猜測是業務**被刪除。乙份疑似攜程的內部郵件表示:『croller中保留了上次編譯後的版本,fat到prd環境所有windows環境編譯後的源**被刪除』,如果這份郵件屬實,那基本可以確認此次事故是由於業務**被刪除引起的。業內某專業人士也贊同此觀點 ,他認為攜程資料庫至少隔天多次備份,被刪除的可能性不大。而由於**每天都會上線並且有**庫,所以可能沒有做備份。但如果只是線上**被刪除,那不太可能癱瘓這麼長時間。

\\ 那為什麼這次的故障持續時間能這麼長?infoq高效運維群的智錦發表了自己的看法:

\\

\

攜程目前指向乙個靜態頁面,所有動態網頁都訪問不了。有人問為什麼從備份恢復這麼慢?現在soa架構的**,都是由成百上千個應用子系統組成。平時真正經常發布的,可能就是不到20%的核心子系統。而且發布時都是做加法,很少完全重新部署乙個應用,一旦遇到需要所有系統都需要重新部署的極端情況, 管理協調的問題,應用之間的依賴關係、還有很多平時欠下的技術債都集中爆發了,更不用說很多不常用的子系統,上線之後就沒人動過,一時半會都找不到能處理的人。而且,在這樣的高壓之下,各種噪音和干擾很多,運維工程師的反應也沒有平時靈敏。

\

\\

如果是**被刪除,那也就是說某個員工可能擁有攜程大部分伺服器的登入和操作許可權。所以有人認為攜程在安全審核和許可權控制方面的流程存在問題。但也有人認為再完善的流程也有可能被鑽漏洞,人品比技術更重要。

\\ 如果把這次的故障比作一次**,那這次災難可能就是攜程的『汶川**』了。減少****的一種有效做法是應急演練,同樣,軟體公司也需要災難演練,以防不備之災。中國移動的王曉徵說道:

\\

\

浙江移動每年的大小演練有近300次,去年核心crm系統在白天中午11點左右做整體切換,不到5分鐘就全部完成了。浙江移動內部有乙個故障參考手冊,運維人員可以根據手冊判斷故障可能會影響到的業務,並根據影響到的業務確定相應的處理方案,最後會根據處理時間評定故障等級,並匯報給相應的負責人。針對大的故障,核心思路應該是先恢復,再修復。

\

\\

感謝徐川對本文的審校。

攜程網癱瘓超8小時,可能故障原因分析

物理刪除是指檔案儲存所用到的磁儲存區域被真正的擦除或清零,這樣刪除的檔案是不可以恢復的。如果攜程的資料庫被物理刪除,那損失不可估量。不過,攜程網已經明確表示資料庫被物理刪除純屬謠言,所有的訂單資料都儲存完整。從技術角度來看,物理刪除的速度非常慢,攜程那麼多的資料在短時間內被刪除的可能性不大。所以這一...

攜程網癱瘓超8小時,可能故障原因分析

物理刪除是指檔案儲存所用到的磁儲存區域被真正的擦除或清零,這樣刪除的檔案是不可以恢復的。如果攜程的資料庫被物理刪除,那損失不可估量。不過,攜程網已經明確表示資料庫被物理刪除純屬謠言,所有的訂單資料都儲存完整。從技術角度來看,物理刪除的速度非常慢,攜程那麼多的資料在短時間內被刪除的可能性不大。所以這一...

攜程網癱瘓超8小時,可能故障原因分析

物理刪除是指檔案儲存所用到的磁儲存區域被真正的擦除或清零,這樣刪除的檔案是不可以恢復的。如果攜程的資料庫被物理刪除,那損失不可估量。不過,攜程網已經明確表示資料庫被物理刪除純屬謠言,所有的訂單資料都儲存完整。從技術角度來看,物理刪除的速度非常慢,攜程那麼多的資料在短時間內被刪除的可能性不大。所以這一...