雙11幕後超級英雄新一代運維的價值

「雙十一」剛剛結束，其實最緊張的不是商鋪理貨，也不是網友緊盯大促商品準備秒殺，而是網購幕後的運維人員，他們最擔心：什麼網路中斷、應用卡頓、響應速度慢，伺服器宕機……

雙十一作為電商 it 部門的頭等大事，大促前，運維人員就需要早早地做好多套預備方案，並時刻緊繃著神經，經歷著上百次模擬演練。他們在後端有多少不眠不休的夜晚，不得而知。幾年前，一場秒殺讓伺服器宕機是常態，現在，一秒數十萬的訂單，伺服器依然堅挺。毫無疑問，支撐起這一切的是強有力的技術和運維人乙個個不眠的夜晚。

看似簡單的雙十一背後牽扯到是包括支付、架構、資料庫、網路、運維、電力、客服、物流等整個商業配套基礎設施的協同和考驗。

雙十一大促的那些年運維邁過的坑

天貓雙十一大促最早開始於 2009 年，那時候還是****，一天的 gmv 只有幾千萬，而且還沒有零點全民瘋搶的概念。在大促前工程師們基本上會根據各自的經驗判斷，比如伺服器的當前負載、應用的當前 rt 和 qps，判斷每台伺服器最大能支撐多少能力等，然後幾個人討論後就決策拍板，某某核心應用各自要加多少臺伺服器，到底要加多少伺服器，實際上大家的心裡沒底，實在不放心臨時再多申請擴容。總之這個階段業務量也小，也能應付過去。

後來幾年隨著天貓品牌的提公升，雙十一大促逐年爆發，原來的運維方式已經無法適用。業務發展迅速，後端的應用數量也大大增加，各個應用系統之間的呼叫鏈路錯綜複雜。大促前到底要準備擴容多少資源？不能拍腦袋熱，因為你申請資源太多會可能被拒絕，申請少了你要承擔更大的風險。這時候用線上壓測的方式來解決，比如可以直接在生產環境抽取 1 臺伺服器，通過模擬回放或者直接引入多倍流量做壓測，根據壓測結果計算出單臺伺服器的最大可承載能力，然後用數字來說話，去申請擴容。還有就是即使容量規劃做到位了，但在零點峰值的時候還是可能會超出預期，系統還是會擠爆。所以又引入了限流和降級，限流就是對各個應用設定乙個最大閾值，超過閾值就立刻拒絕新的請求，這樣的好處就是保護應用，避免雪崩。還有就是降級，由於應用太多，在大促的期間，可以關閉部分非核心功能，保證交易主流程的能力最大化。那個階段的壓測也不是完全精確的，主要問題是壓測的侷限性，只是對某個應用做單獨壓測，但是應用之間是有依賴有關聯的，特別是一些共享服務中心，基本上被所有應用都依賴呼叫，那怎麼辦呢？後來幾年時間又研發出新的壓測工具，全鏈路壓測。這個對於容量規劃來說，是全新的思路，直接在生產環境上通過模擬複製產生大批的流量，每個環節都會被壓測到，並有相應的監控系統配套，來找出瓶頸點在**，並迅速優化。而且這個過程被自動化完成。

可見，自動化運維是大勢所趨。

零點瘋搶背後的運籌帷幄

現在的電商雙十一大促活動仍舊延續零點瘋搶模式，對於應用系統保障來說，能否順利扛過前 15 分鐘，甚至是前幾分鐘，成為最核心的保障任務。運維界大咖給出了以下幾點建議：能否順利扛過前 15 分鐘，甚至是前幾分鐘，成為最核心的保障任務。具體給出了以下幾點建議：

a. 容量規劃。盡可能在生產環境做壓測，只有經歷過壓測，心裡才會有底。

b. 關鍵應用要支援限流。零點全民瘋狂的流量很可能會超出預期，只有設定好限流才能保護好自身應用，否則出現雪崩式連鎖反應。

c. 對非核心功能做降級。每次雙十一會投入大量的資源，基本會往核心交易類應用傾斜，那麼非核心功能的降級一定程度上是可接受的。

d. 應急預案。對可能發生的異常狀況提前準備。

雙十一大促是最典型的彈性場景

彈性是雲計算的最大優勢，而大促是最典型的彈性場景。

隨著雲計算特別是公有雲的普及，現在的運維人員基本上無需關注機房、網路、作業系統等底層設施。在不斷地演練後，如今的電商平台早已採用彈性可擴充套件的雲計算平台，配合分布式資料，高效的 cdn 分發來實現負載均衡，避免在雙十一凌晨高併發狀態下崩盤。運維人員將更多精力轉移到快速上線，快速迭代，去支援業務發展。

大促活動的流量跟日常完全不在乙個量級，完全可以利用雲資源的按需使用，來達到擴容的需求，而且在成本上是巨大的節省。除了擴容以外，當然還需要準備應急預案。整理出當天可能出現的異常情況，提前預演。

去年天貓雙十一開場僅僅十分鐘，世界支付紀錄被再次重新整理。支付寶公布的資料顯示，在零點 9 分 39 秒，支付寶的支付峰值達到 12 萬筆／秒，是前年的 1.4 倍，重新整理了去年創下的峰值紀錄。在支付方式的選擇上，花唄和餘額寶成為非常受網友歡迎的支付方式，筆數佔比分別高達 29% 和 18% 。

經得起鉅額交易，玩得起光速秒殺，技術系統抗得住，收益率流動性各種穩妥……只有經得起雙十一的終極考驗的才算是真正的神器！

智慧型運維要借助資料和演算法才能實現

運維的發展階段經歷了從標準化、工具化、自動化、到現在初露端倪的智慧型化，每個階段的發展都代表了生產力和效率的大幅提公升，整個趨勢是不可避免的。智慧型時代的運維不是要讓運維人員失業，而是對運維效率的提高有著極大的訴求，比如如何在錯綜複雜的環境中快速定位問題、root cause、甚至是故障**，避免發生故障，保障應用穩定性。

智慧型運維要借助資料 (運維資料) 和演算法才能實現。首先運維能力的發展不是直接跳到智慧型運維階段的，必然經過標準化、工具化、到自動化的發展過程，只有高度完善的自動化才具備基礎能力。其次就是資料積累，需要大量的運維資料，可以是日誌資料、網路抓包資料、資料庫資料等等。還有日常運維產生標註的資料，比如出一次故障後，運維人員會記錄下過程，這個過程會反饋到系統，反過來提公升運維水平。最後就是演算法，到底採用哪類演算法模型做持續優化。

天弘**在運維部門希望通過伺服器效能日誌採集分析，實時監控應用系統基礎資源的使用情況，通過採集客戶端 agent 收集伺服器和集群元件的 cpu、記憶體使用率，以視覺化形式展示資源執行狀況。

據悉，天弘**雲日誌平台專案已開始進行內部推廣，在系統正式執行期間得到了使用者認可，對使用者的具體價值體現在以下幾個方面：

運維人員：資料脫敏功能幫助運維人員解放人力；採集資源管控功能可以防止 agent 程式對伺服器和應用產生影響，有效避免災難性故障發生。

研發人員：日誌查詢功能可方便快捷的查詢日誌檔案；呼叫鏈分析幫助研發人員快速定位故障原因和問題點，協助研發團隊優化系統**並進行架構治理。

業務人員：監控告警功能可及時發現業務故障，最大程度上降低故障響應時間，提公升使用者服務體驗。

管理人員：智慧型運維可實時掌握服務資源運**況，並能夠**集群水位，提供基礎資源擴容建議。

寫在最後

除去上述，所有運維團隊還需要提前制定值班計畫，對雙十一當天可能發生的各種突發情況預案，雙十一各時段應該關注的關鍵點進行詳盡計畫。總之，每年雙十一都是一次檢驗，一次大考。細節決定成敗，對全體運維人而言，必須所有細節都關注到，演練到，準備到，才足以從容應對每一年的雙十一大促。

截至 11月 12 日零點，2017 年天貓「雙十一」交易額定格在 1682.69 億元人民幣。不斷創新高的銷售額、交易峰值、支付峰值，這些驚人數字的背後倚仗的是怎樣的技術體系？智慧型化正逐漸走入 it 行業乃至社會生活的各個方面。未來，利用大資料關聯分析與機器學習技術為運維系統賦予人工智慧，提供從故障預防到故障定位、再到故障閉環的智慧型保障能力。或許到那個時候，運維工程師也可以輕鬆玩轉雙十一，妥妥的購物買買買啦！

雙11幕後超級英雄新一代運維的價值

Uplinq2014幕後花絮挖掘機技術哪家最強？

《浪潮之巔》13 幕後的英雄風險投資

阿里總部對外解密雙11超級工程背後的資料庫技術

雙11幕後超級英雄 新一代運維的價值

Uplinq2014幕後花絮 挖掘機技術哪家最強？

《浪潮之巔》13 幕後的英雄 風險投資

阿里總部對外解密雙11超級工程背後的資料庫技術

相關推薦

雙11幕後超級英雄新一代運維的價值

Uplinq2014幕後花絮挖掘機技術哪家最強？

《浪潮之巔》13 幕後的英雄風險投資