關於阿里巴巴基礎設施,你要知道的都在這裡

2021-08-22 14:53:42 字數 4836 閱讀 7298

7 月 28 日,由阿里巴巴集團發起,阿里巴巴 ais 舉辦的 alibaba infra. day 2018 (阿里巴巴 infrastructure 技術開放日)在美國山景城計算機歷史博物館順利舉行。

活動吸引到了來自 google、facebook、twitter 等網際網路公司超過 500 位工程師參與分享和討論。於活動當天詳細為大家介紹了阿里巴巴十幾年來在集群管理、linux 核心、資料庫、資料倉儲、儲存、異構計算等多個基礎設施領域的實戰經驗和最新產品細節。

alibaba infra. day 2018 的主題是 the golden era,為大家揭示網際網路基礎設施領域發展正式進入淘金時代。隨著全球網際網路使用者數量激增,資料成為現代社會愈發寶貴的資產,巨大的資料將在未來產生不可估量的價值。基礎設施是網際網路發展的基石,歷次關鍵節點都伴隨著基礎設施的公升級,從硬體到軟體。

alibaba infra. day 2018 是 alibaba infra. group 在矽谷的第二屆技術開放日活動,邀請了來自阿里巴巴 ais 團隊的 11 位技術大拿參與。alibaba infrastructure (ais)負責阿里巴巴經濟體軟硬體基礎設施,團隊覆蓋資料中心、網路、伺服器、運維中心、核心、容器、jvm、排程、資料庫、儲存、中介軟體等多個領域,在美國桑尼維爾、西雅圖、聖馬特奧、中國杭州、北京、上海等多個國家和地區設有團隊。

阿里巴巴基礎設施事業群副總裁周明在大會上分享了阿里巴巴的商業生態大圖,為更好地理解基礎設施技術所支援的業務範圍做了鋪墊。

1999 年成立的阿里巴巴集團在全球超過 150 個國家和地區有超過 57000 名阿里同學,以「讓天下沒有難做的生意」為核心建立了多緯度的電子商務線上交易平台,業務包括 b2b **、網上零售、購物搜尋引擎、第三方支付、物流服務和雲計算服務。

周明講到:「阿里巴巴經濟體中豐富的場景為技術同學們如何做好業務快速發展和落地帶來挑戰,業務產生的海量資料進一步激發了底層基礎設施發展的需求。同時為了促進全球技術合作,引領創新科技的發展,阿里巴巴集團成立了全球科學研發專案阿里巴巴達摩院,我們對技術的重視程度已經從把握現在望向了未來。」

阿里巴巴高階研究員李飛飛(花名飛刀)在主會場發表了主題演講,為大家分享了阿里巴巴技術架構全景。

李飛飛說道:「2017 年的雙十一,當天錄得創紀錄的交易峰值:每秒 32.5 萬次,同時創下新的支付紀錄:雙 11 開場僅 5 分鐘 22 秒,支付寶達到每秒 25.6 萬筆的支付峰值,為去年的 2.1 倍;資料庫處理峰值達到創紀錄的每秒 437 萬次。這些資料的背後,是整個阿里巴巴技術同學們的努力,而乙個清晰的技術架構為龐大經濟體的運營提供了更穩定的支撐,是基石。" 阿里巴巴技術中臺技術架構事業群提供了從網路到 idc 到異構硬體到系統軟體和中介軟體再到資料庫系統的一整套技術解決方案, 實現了在阿里巴巴複雜商業應用場景下面對大資料、高併發提供高效、安全、可靠、低成本的基礎設施。基礎機構事業群堅持自主可控的發展目標, 大規模應用和研發新技術, 推動系統基礎軟硬體設施從研發到部署到管理的整個流程的資訊化、自動化、和智慧型化。

李響,阿里巴巴系統軟體事業部資深技術專家

large-scale cluster management

為了給數以億計使用者快速、穩定的服務,阿里巴巴在全球建立了數個大規模資料中心。這些資料中心為內部、外部提供著巨大的計算資源。阿里巴巴的集群管理器自動化這些資源的分配,並且推動了諸如彈性擴容、自動化運維、資源規劃等技術的發展。這個系統使得開發者能夠快捷、穩定地獲取計算資源,並且充分保證分配的資源被有效利用。儘管我們已經做到了提高開發效率和降低成本,但是仍舊有很多開放性的問題需要去探索。

這個話題將會介紹阿里巴巴集群管理系統的概況,以及這幾年所解決的有挑戰性問題。這些挑戰包括業務混合部署、高峰流量處理等。我們會解釋這些技術的背後驅動:阿里巴巴獨特的商業和技術需求。最後,我們會**由諸如serverless、人工智慧、iot 等阿里巴巴的飛速發展的計算領域帶來的更多難題。雖然還不知道對這些問題的最好解法,但是我們在一如既往地努力解決問題。

劉博,阿里巴巴系統軟體事業部高階技術專家

linux kernel development

現如今 linux 已經統治了伺服器領域,alibaba 所有的服務都建立在 linux 之上。linux kernel 作為 linux 生態中最重要的一環,需要被管理起來從而為 alibaba 基礎架構提供具有 ras 的作業系統。本次分享介紹了 alibaba kernel team 如何在 alibaba 生態中融入 linux kernel, 和如何在 kernel 的前瞻領域中持續創新來降低成本。

李飛飛(花名飛刀),阿里巴巴資料庫事業部高階研究員

running the gamut: challenges from alibaba's ecosystem for database systems

demai ni(花名德邁),阿里巴巴資料庫事業部資深技術專家

x-db:the next generation globally-distributed database system

x-db 是支援阿里巴巴業務的事務資料庫,擁有十萬+例項,涵蓋**,天貓,aliexpress 等核心業務,以及最新融入的 lazada,高德,餓了麼,優酷/土豆網等網際網路+業務。作為世界體量最大的 oltp 系統之一,x-db 通過分層儲存提供高吞吐量,計算和儲存分離賦予高彈性能力,並且通過 paxos protocol 保證高可用,以及基於盤古檔案系統的資料高可靠。同時,x-db 利用最新的硬體技術(如 nvm, ssd, fpga)達到高效儲存和計算穩定。初期 x-db 在阿里巴巴業務的驅動下和挑戰中完成多項關鍵技術:水平擴充套件,跨物理域高可用,百倍的彈性;現在 x-db 的技術革新在為阿里巴巴創造新業務。x-db 基於人工智慧的技術和全球部署能力,即為阿里基礎設施服務,也將在雲上為萬億使用者服務。x-db runs everywhere all the time!

李瑞萍,阿里巴巴資料庫事業部資深技術專家

analyticdb: challenges and opportunities of real-time data warehousing

趙曉雪,阿里巴巴基礎設施事業群研究員

intelligent infrastructure operation

阿里巴巴的基礎設施正在經歷著翻天覆地的大規模化的快速變革。我們的目標是在這樣大規模化的發展中通過自動化,數位化和智慧型化的技術始終保持基礎設施運維的高效,穩定,和低成本。在這次的活動中,我們分享了三個主要的自動化運維平台,第乙個是運營支撐與決策平台,致力於打造從需求到**鏈再到安裝交付的整條自動化鏈路;第二個是資料中心運維平台,緊密結合資產,器件,儀器等多項實時監控,資料中心現場安防和作業流程自動化;第三個是天基系統,保證了近百萬臺伺服器的基礎軟體,韌體快速安全自動大規模部署和公升級。在每乙個平台系統中,我們都加入了智慧型運維的功能。例如,根據產品特性,週期和歷史資料等資訊,採用資料探勘,機器學習,統計分析,數學模型等多種方法,阿里雲計算產品對於基礎設施的需求**準確率可達80%以上。再例如,通過神經網路和優化模型,我們的自建資料中心的能耗效率提高了 20% 以上。我們期待能夠在不久的將來,通過技術創造高效,智慧型的無人值守資料中心。

張銘,阿里巴巴網路研發事業部研究員

自動駕駛網路

阿里巴巴擁有著包括電商、雲計算、網際網路金融等一系列高速發展,且內容極其豐富的網際網路業務。為了向全球的幾十億使用者提供優質、可靠的服務,阿里在世界各地建造資料中心和 pop 點,並通過遍布全球的網路將使用者和這些資料中心連線起來。在這次活動中,我們分享了如何通過構建自動駕駛網路來保障阿里網路在高速發展下的穩定性。與傳統的網路運維方式所不同,自動駕駛網路具備靈敏的感知能力,高度的自動化能力,以及全域性的優化決策能力。不僅如此,自動駕駛網路還具備精準的**能力和強大的學習能力。在過去幾年中,我們從無到有的打造了阿里的自動駕駛網路,實現了從人工運維到智慧型化運維的跨越。

李舒,阿里巴巴伺服器研發事業部資深專家

阿里巴巴儲存基礎設施的軟硬體一體化設計

伺服器儲存團隊全力打造軟硬體一體的阿里巴巴底層統一儲存平台以向上支撐盤古分布式檔案系統和集團業務。在過去3~4年的不斷努力中,已實現硬體白盒化,並建立全球領先的 alibaba open channel ssd 系統,發布了alibaba open channel 標準,並成功吸納 intel、三星、美光、紫光、海力士、西數、寶存、cnexlab、東芝等國際廠商加入alibaba open channel 聯合研發、驗證、產品化,現已實現在阿里巴巴基礎設施的部署。本地儲存引擎 fusionengine 向上支撐盤古分布式系統,向下銜接alibaba open channel ssd,實現了從儲存介質顆粒到上層業務應用的全棧白盒化與一體優化迭代,打造了高效能、高穩定、低成本的阿里巴巴底層統一儲存平台,以之全力支撐阿里業務,並與各業務一起開拓新商業,以全棧優化的深入技術能力,創新並迭代具有國際競爭力和影響力的業務產品。

yu, minggang,阿里巴巴資料庫事業部資深技術專家

heterogeneous computing: unified data analytics

隨著資料分析特別是 ml 智慧型分析越來越龐雜,目前零散分離的工具鏈如 scipy stack 早已無法滿足資料科學家或領域專家在容量、場景多樣性和效率持續增長的要求。分析平台需要能夠統一分析異構資料深入挖掘關聯資料價值,並充分發揮各種異構硬體(如 gpu/fpga/asic/optane/rdma)的計算和傳輸效能。本次分享介紹了阿里巴巴 pb 級高併發實時資料分析平台 ads 及其技術規劃,目標是利用多種新硬體加速多模態資料統一分析(包括 olap、統計和機器學習)和大規模資料呈現(backend rendering)。

張偉豐,阿里巴巴伺服器研發事業部研究員

隨著摩爾定律的枯竭,傳統單一的計算機結構已經不能滿足人工智慧/機器學習應用所需求的強大計算力。相比之下,異構計算架構針對機器學習應用的各種各樣特性能夠充分發揮不同架構的計算力,因而成為挖掘未來計算潛力的關鍵技術。在這次分享中,我們介紹了計算架構發展趨勢和機會,並**如何促進 fpga,asic(如人工智慧晶元)和非馮諾伊曼架構的發展和演進,從而實現人工智慧/機器學習應用的最大效能。

最後為大家介紹大會中出席分享的各位 tech leader.

基礎設施建設的未來是什麼樣的,需要我們一起去定義。

關於IIS,你要知道的。

什麼是iis?iis是internet information server internet資訊服務 英文全稱的縮寫,是微軟公司主推的web伺服器。iis並不是一種程式語言,它只是一種 環境 一種讓asp語言執行的環境。是一種web 網頁 服務元件,用來搭載 執行程式的平台。iis的作用是什麼?專...

關於基礎IO部分你需要知道的

基礎io c語言學的 標準庫的io 介面 就是檔案操作 fopen fseek 跳轉讀寫位置 fwrite,fread,fclose 關閉檔案 fprintf,sprintf fopen file,r fget 從乙個檔案流中讀取一行資料 file fopen const charfilename,...

關於快取你需要知道的

作後端開發的同學,快取是必備技能。這是你不需要花費太多的精力就能顯著提公升服務效能的靈丹妙藥。前提是你得知道如何使用它,這樣才能夠最大限度發揮它的功效,並抑制其 本文將介紹最如何正確的新增和更新快取。這部分將介紹在開始加快取之前我們必須要做的事情。這步非常重要,如果沒弄好,很有可能加了快取反而不如不...