阿里巴巴國際環境下的SRE體系實踐

2021-09-10 10:27:01 字數 2546 閱讀 2877

aliexpress 是阿里巴巴國際電商平台,海外買家覆蓋 200+ 國家,分布廣且離散,國際架構、網路體系複雜,為了提公升全球使用者體驗面臨諸多技術挑戰。從 2016 年開始,aliexpress 就開始落地 sre 相關的實踐,並且收效頗豐。為了了解 aliexpress 全球架構體系下的可用性解決方案及具體實踐,infoq 記者採訪了阿里巴巴高階技術專家周志偉。另外,周志偉也將會在 9 月 10 日舉行的 cnutcon 全球運維技術大會上分享相關話題。

infoq:針對新時代的運維,目前有三個比較火的理解,分別是 devops、sre、aiops,你是如何理解這些理念的?

周志偉:devops,我認為是讓研發參與 ops 的運維活動,為自己負責的應用生命週期負責。在 devops 理念中,開發不是說寫完**然後交付就完事了,同時,他也要對線上的運維負責。對於網際網路商業公司來說,我認為推行 devops 是對客戶的尊重,也是對穩定性負責。因為研發人員能更快的解決由於運維過程出現的問題並修復,更高效準確的參與和修復線上問題,從而提公升使用者體驗。當然現在的應用過於龐大、依賴過於複雜,單純的讓 ops 團隊運維很難做到萬無一失。

在 aliexpress,我認為 sre 是乙個組織,它為**可用性買單。sre 由多位領域專家組成,可以解決生產環境發生的各種問題。我們通過大資料分析發現**問題或者可能存在的風險,當問題發生時能快速有效的止血,恢復問題,同時又有一套工具體系能定位問題的根因。當然這個組織會制定一套圍繞穩定性機制運作的規範,讓大家來遵守。

aiops,我覺得 aliexpress 現在走的路應該是往這個方向靠的。現在 aliexpress 正在做的是通過大資料驅動 sre,把 sre 關心的系統資訊、訪問資訊等資料進行模型計算,通過機器學習進行問題識別和診斷,這個過程我認為就是 ai 的過程。問題識別和診斷之後會給出一些自動恢復問題指令,機器再通過實時資料檢測指令的有效性,符合預期,繼續執行更大範圍的恢復,直到全面恢復。如果不符合預期則會嘗試其他恢復手段。這套體系還在實驗和摸索,從方案和部分實驗上看是可行的,已經貼近人的判斷甚至有些方面更客觀。但也有很多不足之處,這取決於演算法模型的準確性。我想這是我們要走的路。

infoq:aliexpress 是什麼開始實踐 sre 理念的?可否介紹下目前你們的一些基本情況?

周志偉:aliexpress 的 sre 是 2016 年開始摸索的,核心思想是分層治理,在最重要的一層用紅線確保實施到位。

在紅線的基礎上建立一系列配套規範(包括監控規範、發布規範、線上運維規範等等),讓全員參與學習。

建設 sre 運作體系(故障演練、作戰演習、快速響應),讓我們的 sre 工具、團隊成員在平時都能得到基本的訓練,確保在問題發生時都能在最短的時間恢復(實時也證明通過日常的作戰訓練非常有效,響應速度以及對於工具的信心)。

這些基礎的保障之外我們會更多的參與基礎資料採集和分析,通過大資料的方式運作 sre,通過大資料發現更多維度的問題,使用損失最小的方式恢復問題,或者說是通過更有效的手段恢復問題。特別是面對國際複雜網際網路時,尤其需要通過大資料來幫助定位是哪個國家哪個地區出現的網路癱瘓。

infoq:你認為 sre 主要解決了 aliexpress 哪些問題?

周志偉:提高 aliexpress 的可用性,事實也說明了這一點,這個組織讓整個 aliexpress 多了乙個橫切面去保障,大家相互了解互相學習,解決的不僅僅是線上問題,我認為是預防了很多線上問題發生的可能。同時 sre 通過大資料的方式進行問題的發現,以及解決。特別是國際網際網路的問題上,我們有多種異地多活和優化機制,更大力度的解決早些年碰到國際網路問題無從下手的尷尬局面。

infoq:可否介紹下 aliexpress 的 sre 方法?

周志偉:首先,我們有 kpi 核心紅線,從組織的角度去確保實施到位,解決了因為有工作量而不執行的難題。

然後,我們有穩定性規範,脫離規範很多事情無從下手,再多的防禦手段也無法防禦來自不遵守規則的破壞。

再者,我們在統一環境標準,應用標準,日誌標準上做了很多任務作,這對 sre 的標準化運作幫助很大。在標準化的前提下,很多自動化工具都可以順暢的開展。

隨後,對於 sre 組織來說,我們會有常態化的訓練,sre 成員的應急作戰訓練以及 sre 恢復工具的訓練(通過故障模擬等手段確保工具的可用性)。

最後,大資料採集,利用大資料驅動 sre,工具的完善配套,讓整個 sre 體系智慧型化起來。(同樣用故障模擬的方式訓練大資料模型的準確性)

從兩個維度推進 sre 的進步,乙個是培養研發人員的「sre 素質」,另乙個就是訓練我們的工具,在需要時不掉鍊子。

infoq:可否介紹下你們的分層自動化實踐?

周志偉:我們的分層自動化有幾個切面,從研發過程來看:

這一套自動化過程是針對整個研發生命週期和線上運維生命週期的,分層自動化越早介入,風險越低。

周志偉:簡單來說,主要有以下幾點:

全球網路體系複雜,互聯互通問題諸多,如何應對由此帶來的**可用性問題?

國際架構體系下,全球物理距離使得網路傳輸時間成為技術難點之一,如何解決可用性和提公升全球使用者體驗?

如何實現全球多 idc 下的異地多活?

全球多 idc 下的資料一致性問題。

阿里巴巴國際站新店鋪3個月的成果

很久沒發文章了,都比較忙,希望大家在過去的一年都能夠有所進步。9月份接受了乙個新店鋪,到十二月份,3個月的資料給大家看一下,還是有所成長的,沒接手前,直通車都是任由他燒著,一天才1 2個詢盤,太浪費了。用自己的方法,慢慢來,現在效果好起來了,雖然說不是top,但是起碼也已經遠超同行平均了,欣慰一下。...

網際網路科普貼 阿里巴巴國際站是什麼

一 什麼是阿里巴巴國際站 1 這個是阿里巴巴在1999年創立之初就布局的站點,算是阿里體系最早的業務了。就是為全世界的中小企業提供了乙個商機資訊發布平台。雖然定位高大上,但是初始階段大家都是以國內b2b為主。2 阿里的b2b業務一般指的就是阿里巴巴國際和阿里巴巴中國這兩個最早的b2b業務。3 當時國...

網際網路科普貼 阿里巴巴國際站是什麼

一 什麼是阿里巴巴國際站 1 這個是阿里巴巴在1999年創立之初就布局的 算是阿里體系最早的業務了。就是為全世界的中小企業提供了乙個商機資訊公布平台。儘管定位高大上。可是初始階段大家都是以國內b2b為主。2 阿里的b2b業務一般指的就是阿里巴巴國際和阿里巴巴中國這兩個最早的b2b業務。3 當時國際站...