阿里雲9月1日安騎士公升級故障真相

2021-09-16 18:08:50 字數 3912 閱讀 8284

infoq:請您簡單介紹一下自己以及在阿里雲負責的工作內容。

\u0026#xd;\n\u0026#xd;\n

\u0026#xd;\n

吳瀚清:我現在阿里雲主要是負責雲盾這個安全品牌。我們想把雲盾建設成為網際網路安全的基礎設施,中國it的大環境跟國外相比還不夠成熟,在雲計算安全方面有一些基本的攻防問題需要解決。我們的很多客戶對安全並不了解,但是他們的業務有很強的安全需求,所以我們想幫助客戶多解決一些這方面的問題,這是雲盾誕生的前提。所以我們在雲盾裡推出了許多產品,比如像ddos防護產品,比如這次出故障的安騎士,這是一款伺服器安全產品,主要防止黑客入侵,另外還有一些web應用防火牆,等等。

\u0026#xd;\n

\u0026#xd;\n\u0026#xd;\n

infoq:能描述一下這次事故的具體過程和技術細節嗎?

\u0026#xd;\n\u0026#xd;\n

\u0026#xd;\n

吳瀚清:這次故障發生在9月1號早上,我們一位安騎士服務端的研發工程師修改了一行**,由於改動很小所以就繞過了整個測試的流程,直接把**發布上線了。發布到第一批機器並觀察了半小時之後,並沒有發現異常問題,於是這位工程師把剩餘的機器也發布上線了。到11點40多的時候,客服開始接到工單,使用者反映新啟的程序被殺掉、程式檔案也被刪除。我們在12點的時候定位到了問題,同時對這次發布進行了回滾,制止了問題的蔓延。但是之前反饋問題的使用者,需要乙個檔案恢復的過程。我們在系統設計的時候,對於這種異常情況估計不足,尤其是這次情況特殊,並沒有批量恢復的機制。因此,我們需要臨時寫乙個程式,下發到受影響的客戶伺服器上,幫助客戶恢復被刪除的檔案。下午3點多的時候我們寫完了這個程式,並進行了一些除錯,下午5點的時候對程式正式下發,下午7點多的時候恢復了受影響的客戶檔案。

\u0026#xd;\n\u0026#xd;\n

在故障發生的時候,很多客戶在微博上情緒比較激動,也有一些人藉著這個故障在造謠,說阿里雲的資訊產生了洩漏,這個事情其實是不屬實的。阿里雲官方也進行了闢謠,這純粹是乙個技術上的故障,跟安全問題沒有太大的關係。

\u0026#xd;\n

\u0026#xd;\n\u0026#xd;\n

infoq:剛才您說工程師改了一行**造成了這次事故,關於這行**的細節,您能說一下嗎?

\u0026#xd;\n\u0026#xd;\n

\u0026#xd;\n

吳瀚清:安騎士有乙個功能是惡意檔案查殺,這個功能有乙個黑名單機制,這個黑名單是人工運營的,我們會把人工確認過的惡意檔案加入到這個黑名單中。這行**的邏輯有乙個條件判斷錯誤——把所有新啟動的檔案全部判斷為了惡意檔案,被加進黑名單中的檔案程序於是被阻斷、檔案被刪除。

\u0026#xd;\n

\u0026#xd;\n\u0026#xd;\n

infoq:雲盾作為乙個明星產品,此次安騎士server元件上線有沒有經過嚴格的測試並灰度發布?你們的發布流程是怎樣的?

\u0026#xd;\n\u0026#xd;\n

\u0026#xd;\n

吳瀚清:這次是灰度發布的。工程師首先發布了一部分機器,然後觀察了半個多小時之後才把剩下的都發布到線上,但是在灰度發布的過程中我們的報警閾值的設定是有缺陷的,沒有在第一時間發現這個問題。我們在客戶端的發布是有嚴格的灰度發布流程,整個客戶端的發布大概要經過1~2個月的時間。但這一次是server端的灰度發布,這個機制還不完善,這也是我們接下來要改進的重點。

\u0026#xd;\n

\u0026#xd;\n\u0026#xd;\n

infoq:在v2ex論壇上有使用者稱將解除安裝雲盾,阿里雲官方也給出了解除安裝方案,目前有多少使用者解除安裝了雲盾產品?

\u0026#xd;\n\u0026#xd;\n

\u0026#xd;\n

吳瀚清:這個具體資料不是很方便透露,但是解除安裝的使用者不是很多,大部分使用者還是選擇相信我們。

\u0026#xd;\n

\u0026#xd;\n\u0026#xd;\n

\u0026#xd;\n\u0026#xd;\n

\u0026#xd;\n

吳瀚清:阿里雲上第三方的安全產品已經有

一、二十家了,我們現在也在積極聯絡國內和國外的安全廠商,幫助他們的安全產品上雲。但是阿里雲深層的api和網路架構也在進行調整以及設計的過程中,國內有幾家大的安全廠商正在跟我們一起參與設計,一些重量級的虛擬化的安全產品正在入駐我們的雲市場。

\u0026#xd;\n

\u0026#xd;\n\u0026#xd;\n

infoq:已經在阿里雲上線的這

一、二十家安全產品主要是哪些類別?

\u0026#xd;\n\u0026#xd;\n

\u0026#xd;\n

吳瀚清:主要是一些服務類的產品,比如滲透測試類、主機加固類,也有一些是伺服器安全檢查的工具。

\u0026#xd;\n

\u0026#xd;\n\u0026#xd;\n

infoq:官方公告「百倍時間賠償」是否意味著對使用者造成的影響十分嚴重?使用者目前對賠償方案有什麼反應?

\u0026#xd;\n\u0026#xd;\n

\u0026#xd;\n

吳瀚清:「百倍時間賠償」好像除了阿里雲也沒有其他家做這樣的事情,這是阿里雲定下的乙個策略。實際上我們跟運營商去談的時候也很難有這樣的處理機制,運營商根本不知道你的業務跑的是什麼東西,所以很難對你的業務進行定量的評估。從這一點上來說,阿里雲「百倍時間賠償」還是比較有誠意。在微博上也可以看到使用者的一些反饋,我也能理解使用者的業務損失可能遠遠不止這百倍時間的賠償,但是我們目前也只能做到這一步了。

\u0026#xd;\n

\u0026#xd;\n\u0026#xd;\n

infoq:方便透露一下阿里雲對這次事故的內部總結與處置措施嗎?

\u0026#xd;\n\u0026#xd;\n

\u0026#xd;\n

吳瀚清:主要是四個方面。第一是研發流程進一步的夯實,我們會有專門的運營體系和團隊來改進我們的研發流程;第二是我們的監控和報警體制會進一步的完善,這一次也暴露出來了這方面的問題;第三是我們的產品架構設計會重新調整,一些強的功能、帶有自保護的功能會上線;最後我們會對組織架構進行一些調整,通過管理來保障未來不再發生這樣的事情。

\u0026#xd;\n\u0026#xd;\n

從產品策略的角度來說,我們會更明顯地告知使用者安騎士都做了哪些事情;同時我們會把安騎士變成乙個使用者可關閉、可解除安裝的產品,過去我們做的不好的地方我們會一一把它改善。

\u0026#xd;\n

\u0026#xd;\n\u0026#xd;\n

infoq:產品層面我想追問一下,阿里雲會不會加大第三方安全產品在阿里雲上的扶植力度?

\u0026#xd;\n\u0026#xd;\n

\u0026#xd;\n

吳瀚清:我們一直都是鼓勵的態度,這其實和雲盾本身是沒有太大關係的。我們只是畫了一條線,就是阿里雲的安全都是包含了哪些東西——這是我們看到的雲計算安全應該要有的功能和服務。但這不是說其他的第三方安全廠商不能來做,我們非常希望——也非常鼓勵第三方安全廠商入駐阿里雲。

\u0026#xd;\n

\u0026#xd;\n\u0026#xd;\n

\u0026#xd;\n\u0026#xd;\n

阿里雲9月1日安騎士公升級故障真相

infoq 請您簡單介紹一下自己以及在阿里雲負責的工作內容。吳瀚清 我現在阿里雲主要是負責雲盾這個安全品牌。我們想把雲盾建設成為網際網路安全的基礎設施,中國it的大環境跟國外相比還不夠成熟,在雲計算安全方面有一些基本的攻防問題需要解決。我們的很多客戶對安全並不了解,但是他們的業務有很強的安全需求,所...

9月1日 每日安全知識熱點

熱點概要 黑客竊取了6000多萬dropbox賬號已被證實真實性 yandex瀏覽器中的csrf漏洞允許偷取受害者瀏覽器資料 使用python進行暗網osint視覺化 powershell without powershell 如何繞過應用白名單,環境限制,和防毒軟體 國內熱詞 msn中文網被 給中...

20160113,微軟1月13日發布9個安全補丁

微軟於北京時間2016年1月13日發布了9個新的安全公告,其中6個為嚴重等級,3個為重要等級,修復了microsoft windows microsoft office microsoft exchange microsoft silverlight internet explorer和micros...