這是阿里技術專家對 SRE 和穩定性保障的理解

2021-10-17 19:50:41 字數 2588 閱讀 1551

在技術工作中,對於產品/基礎技術研發和 sre 兩種角色,通常會有基於「是否側重編碼」的理解。對於產品研發轉做 sre ,經常會產生是否要「脫離編碼工作」的看法,或者認為是否要「偏離對產品/基礎技術的推進」。

基於過往的技術研發和穩定性保障的經驗,分享下個人對 sre 的理解,**「面向產品/基礎技術的研發」和「穩定性保障」兩種角色之間的協作關係,更好地為業務服務。

最早討論 sre **於 google 這本書《site reliability engineering: how google runs production systems》。由 google sre 關鍵成員分享他們是如何對軟體進行生命週期的整體性關注,以及為什麼這樣做能夠幫助 google 成功地構建、部署、監控和運維世界上現存最大的軟體系統。

最早討論 sre **於 google 這本書《site reliability engineering: how google runs production systems》。由 google sre 關鍵成員分享他們是如何對軟體進行生命週期的整體性關注,以及為什麼這樣做能夠幫助 google 成功地構建、部署、監控和運維世界上現存最大的軟體系統。

其中有句形象描述 sre 工作的描述:

即 sre 的目標是構建可擴充套件和高可用的軟體系統,通過軟體工程的方法解決基礎設施和操作相關的問題。

基於上述描述,我對 sre 的理解是:

google sre 一書中,對軟體工程從生命週期角度有乙個很形象的描述:

軟體工程有的時候和養孩子類似:雖然生育的過程是痛苦和困難的,但是養育孩子**的過程才是真正需要花費絕大部分精力的地方。

乙個軟體系統的 40%~90% 的花銷其實是花在開發建設完成之後不斷維護過程中的。

專案生命週期中,設計和構建軟體系統的時間精力佔比,通常是少於系統上線之後的維護管理。為了更好地維護系統可靠執行,需要考慮兩種型別的角色:

第一類角色對應產品/基礎技術研發,第二類角色對應 sre,二者的共同目標均是為了達成專案目標,協同服務好業務。

針對穩定性的影響,直接參與處理客戶問題的同學會更有體感:

穩定性保障的價值由此凸顯:

線上穩定性問題,人為操作不當導致的比例很高,集中在 發布 和 線上運維 兩個環節,均是高頻操作。對於複雜系統,這兩個環節對專家經驗有較強的依賴。

發生的穩定性問題通常具有系統性的特徵,即非單個功能元件缺陷導致,而是由一系列因素綜合作用導致,如缺少監控告警導致不能及時感知,缺少日誌不能有助於快速定位問題,缺少良好的問題排查流程導致依賴個人能力,缺少良好的協調溝通極致導致問題處理時長增加、客戶影響程度加劇等。

問題是不可避免的,流量的突增、伺服器/網路/儲存的損壞、未覆蓋的輸入等,均會誘發問題的出現。

業務對外有 sla,向客戶承諾一定程度的穩定性,未達到時按照協議進行賠付,同時問題又不可不免,在滿足內部 slo 標準的前提下繼續提公升穩定性,會帶來更高的實現成本,對業務的收益增量也會更小。

落地過程中,可先從如下三個抓手系統解決:

可控性方面,包括如下三個主要維度:

可觀測方面,包括如下幾個重要維度:

穩定性保障最佳實踐,是從歷史問題和業界實踐方面抽象出意識、流程、規範、工具,在系統設計之初就融入其中,並在系統整個生命週期中加以使用,如通過模板固化最佳實踐:

乙個例子:

為了便於理解,可以再針對 check 項形成分級,便於交流和進行專案穩定性評估:

當最佳實踐可以通過文件進行規範化,接下來就可以提供工具或服務將其低成本應用,使得穩定性保障最佳實踐成為基礎設施。sre 需要在穩定性相關的方**和實踐方面不斷迭代,自上而下設計,自下而上反饋,合理、可靠保障穩定性。

這兩類角色是相互協作、相互服務的關係,擁有共同的目標:滿足業務需求,更好服務業務。

sre 通常會橫向支撐多個專案,對線上問題的型別、解決實踐有更為全面的理解和思考,基於此會形成最佳實踐的理論、工具或服務,為研發提供理論、工具的支援,也可以在此基礎上產品化穩定性保障解決方案,為更多的客戶服務,創造更大的價值。產品/基礎技術研發對業務需求、功能/技術細節有更深入的理解,一方面直接帶來業務價值,一方面可通過實踐為穩定性保障帶來切合實際的需求,進一步和 sre 共同保障穩定性。

兩種型別的角色,需要朝著共同的目標並肩協作,與業務共同發展,實現共贏

sre 由於工作的性質,在橫向方面會服務大量的業務,以實踐積累對穩定性保障問題域的深入理解和穩定性保障重要性的深刻認知,在縱向方面會通過技術手段將穩定性保障最佳實踐進行沉澱和應用;同時眼光又是與研發、業務一齊向前看,綜合技術和管理創造價值。

以上是從個人角度對 sre 及穩定性保障的理解,重點在於解決問題和創造更大的價值。

作者 | 悟鵬

阿里技術專家對 SRE 的解讀

簡介 產品 基礎技術研發 和 sre 這兩類角色是相互協作 相互服務的關係,擁有共同的目標 滿足業務需求,更好服務業務。在技術工作中,對於產品 基礎技術研發和 sre 兩種角色,通常會有基於 是否側重編碼 的理解。對於產品研發轉做 sre 經常會產生是否要 脫離編碼工作 的看法,或者認為是否要 偏離...

從技術專家到技術管理,我對管理的思考

工作第七個年頭,我從技術專家,變成了一名技術管理者。最近一直在忙碌中思考如何成為一名優秀的技術管理者。這篇文章,主要會從兩個觀點和維度,來談談自己的一些認知和思考總結。首先,從工程師到技術管理的轉變,有兩個觀點要明確 1 技術leader是團隊最好的工程師之一 2 技術leader是為團隊服務,解決...

阿里雲高階技術專家帶你全面了解雲主機效能評測

錢超,花名西邪,阿里雲高階技術專家,超12年老阿里,是雲主機效能領域的知名專家。如何幫助讀者揭開迷霧和誤導,用最合理 客觀的方法去構建雲主機評測的基本框架?在2018年的杭州雲棲大會上,錢超曾做過名為 雲伺服器測試怎麼做到有意義 的主題演講。因為議題的客觀性和實用性,現場觀眾反應熱烈,該議題也得到了...