阿里巴巴研究員劉國華 阿里巴巴智慧型運維體系建設

2021-09-13 04:14:06 字數 2981 閱讀 1267

摘要: 本文整理自劉國華在2023年開放資料中心峰會(open data center summit 2018)開幕式上的演講。在演講中,劉國華介紹了智慧型化給阿里巴巴未來基礎設施帶來的三大價值:資料驅動決策、全域性優化和變革。

我們已經開始大規模使用液冷集群來支援高密度計算

我們在fpga建設了統一的編譯平台,可以提公升研發效率接近30倍以上

網路端我們也開始做大量的創新,總的頻寬從25g到100g到400g

這些創新支援了現有所有ai業務的發展,同時我們也把ai融入到基礎設施領域,讓ai重塑現有的基礎設施。

智慧型化可以給未來的基礎設施帶來什麼?

我們把智慧型化帶來的價值分為三層:

最後一層是變革。當我們把智慧型化的能力運用到平台,就有能力把特殊的點轉化為極大的優勢。以前所有的硬體故障發生的時候,所有的資料中心的運維模式都是屬於被動式響應。當智慧型化後,使用**演算法,就可以提前預估到所有故障,將所有故障的響應方式從被動響應轉化為主動服務。

阿里巴巴運維體系重塑

智慧型化建設最關鍵的三件事情:

第一, 要把基礎設施全面數位化,讓所有東西都變成可衡量的體系。

第二, 建設端到端、從業務到基礎設施全鏈條的自動化平台,保證你的決策規劃和響應速度。

第三, 建立tco模型,實現很好的反饋機制,利用反饋不斷優化我們的模型。

在智慧型化領域,我們採用的是橫跨專業、機器學習以及優化演算法的跨界思考邏輯,基於這樣的思路,阿里巴巴重新規劃建設了基礎設施領域的三大平台——基礎設施規劃與交付平台、集群自動化運維平台和資料中心智慧型運營平台。

通過為這三大平台引入智慧型化,我們重新創造出了與原來三大功能平台不一樣的業務形態。下面我將具體分享智慧型化時代裡,我們對這3大平台的改進與思考。

一、 基礎設施規劃與交付平台

首先分享一下阿里巴巴的基礎設施規劃與交付平台。這個平台的主要職責從業務需求規劃到基礎設施規劃,再到硬體研發、idc建設、生產**鏈以及os交付、自動化交付平台。這個平台負責阿里巴巴所有基礎設施的規劃、建設與交付。最主要的兩個職責:第一是提公升整體交付效率;第二是保證在不斷供的情況下實現成本最優。

我們在很多領域裡引入演算法後,做了很多大的改造。第乙個改造是基於機器學習的方式,建立業務規劃驅動。這種方式可以讓業務具有更強的規劃性,在平台可以快速把業務的規劃轉化成基礎設施的規劃,提公升整體的基礎設施交付鏈路。通過這種方式,我們提公升的效率接近247%。

我們在做需求**,業務端的資料,包括前端的資料,比如阿里雲的銷售資料,以及下沉的基礎設施的庫存體系,結合機器學習的方式,解決需求**的模式。目前我們的準確率最少會達到每個月85%左右。我們現在已經推動所有的業務按這種方式運作,從而讓基礎設施的建設具有極強的規劃性。

二、集群自動化運維平台

集群自動化運維平台解決的核心問題是:

一、 怎樣提公升伺服器規模化後的運維效率問題,以及基於業務視角的成本最優的解決方案。

二、 怎麼保證業務的穩定性。基礎設施下面的任何故障不會影響上面所有業務的發展。

但是,當你業務發展規模到一定階段的時候,故障一定是不可避免的,我們怎麼做?

第一,阿里巴巴集群運維平台建設了乙個全自動化的運維方式,這種運維方式最大的優勢在於,我們跟所有業務排程的方式,用了一種高標準的協議互動模式,可以把所有物理機的運維跟上層運維相互解耦,實現無人化的運維。阿里巴巴現在物理機集群已經100%運用全自動化運維方式,這是第一層在工程上的建設結果。

在智慧型化領域,我們還為所有的業務的提供基於業務視角的資料決策支撐的平台。平台最大的價值在於:第一,基於我們的資料平台,可以把我們所有基礎設施的成本、利用率融入到業務排程裡,實現成本最優化;第二,通過對不同型別業務的專業優化,來提公升整體業務的成本競爭力。

第二,我們引入了一些演算法去做智慧型異常檢測,包含兩部分:第一部分是我們在基礎設施領域在硬體領域做了大量的故障**,通過故障**去提前發現故障;第二部分是業務變更**,我們會把所有業務的變更通過這個平台進行**,來看它變更後帶來的業務的影響。通過這樣**的方式,結合剛才介紹的集群運維的主動服務能力,可以把集群運維的方式從原來被動的響應式逐步轉到現在做的主動服務式的模式。我們在硬碟故障上的**結果,在萬分之八的誤報率條件下,召回率比業界最新進展提公升20%以上,我們還在做宕機、網路故障**以內層故障**,會堅持用這種方式逐步把我們運維的模式從原來被動響應轉成主動服務。

三、資料中心智慧型運營平台

最後乙個平台是阿里巴巴的資料中心運營平台,這個平台的目標是提公升資料中心內部運營效率以及實現能耗最優。

怎麼解決運維效率的問題?通過智慧型的方式建設乙個自主運維平台,通過很多演算法的決策來盡可能提公升自主運維的成功率。目前為止,通過這種方式我們可以把阿里巴巴每個人運維的伺服器台數提公升接近60%。

我們會建設乙個全域性能耗平台來做全域性動態節能體系,我們會在每個領域做深度能耗優化,把能耗的數位化逐步跟上層業務結合起來,提公升機櫃利用率。對於最核心的業務,我們最大可以提公升接近20%的機櫃密度。

同時我們在做專業領域的彈性機櫃電力的創新,未來會把利用率提公升更高,希望未來在資料中心可以把電力利用率和設計利用率相符。這是基於機器學習的演算法做pue的優化,目前通過深度學習的方式在現在的機房實測可以優化接近20%的pue。未來資料中心的優化聯動會全自動化,實現動態優化pue。

除了剛才介紹的**鏈、伺服器、資料中心外,我們在應用層、監控、集群運維都會大量投入智慧型化,實現全方位的智慧型化建設。

我今天分享就到這裡,謝謝大家!

作者介紹:

劉國華(花名索尼),阿里巴巴研究員,2023年加入**網,2023年作為核心架構師負責**網重構,奠定了**網系統全面服務化的基礎,2023年擔任聚划算事業部cto,建立了服務阿里零售業務的智慧型營銷平台。2023年加入基礎設施事業群,負責阿里巴巴集團運維體系建設;同時兼任研發效能事業部負責人。致力於資料中心運維、集群管理、應用運維、研發支撐等領域平台建設,實現阿里巴巴對基礎設施統一管控和資源優化,建設自主演進的智慧型化運維和效能體系,towards a self-driving data center

阿里巴巴研究員劉國華 阿里巴巴智慧型運維體系建設

這些創新支援了現有所有ai業務的發展,同時我們也把ai融入到基礎設施領域,讓ai重塑現有的基礎設施。我們把智慧型化帶來的價值分為三層 最後一層是變革。當我們把智慧型化的能力運用到平台,就有能力把特殊的點轉化為極大的優勢。以前所有的硬體故障發生的時候,所有的資料中心的運維模式都是屬於被動式響應。當智慧...

阿里巴巴AI Pandas

1.series 主要用於處理一維資料,一般由乙個陣列的資料構成。2.dataframe 主要用於處理二維資料。from pandas import series,dataframe series eg import pandas as pd s1 pd.series 1,2,3,4 s1 0 1 ...

「妖精」團隊 阿里巴巴

6年 這個正迅速擴張的團隊仍超乎尋常地保持著 亢奮 和 戰鬥欲 有人質疑這是 精神控制術 而阿里巴巴決定在新年將塑造團隊的種種魔力 制度化 成為其 基本法 在以 白娘子傳奇 聞名的江南杭城,坐落著兩個氣質與這座城市極不搭調的樓層。15天前,這個富有 攻擊性 的空間 迫使全球最有影響力的女人之一,eb...