「阿里巴巴大資料系統體系」學習筆記綱領篇

摘要：『你是做什麼的？』『資料產品經理』看到對方一臉懵逼之後，再補充一句『大資料相關的工作』『哦～，高大上，不懂』過去5年，『大資料』是最火的乙個概念，被紛繁解讀。在我看來，資料跟石油、煤炭一樣是一種資源。

「你是做什麼的？」

「資料產品經理」看到對方一臉懵逼之後，再補充一句

「大資料相關的工作

」「哦～，高大上，不懂」

過去5年，「大資料」是最火的乙個概念，被紛繁解讀。在我看來，資料跟石油、煤炭一樣是一種資源。這種資源其實很早之前就被發現、被應用。只不過因為網際網路的發展，資料這種資源呈現出了「**式」的增長，而人們也發現了它巨大的潛在價值；預計到2023年，全球資料總量將超過40zb(相當於40萬億gb)。

所以面對如此「量大」、「價值大」的資源，我們需要建立一套從資料採集、計算到服務到應用的「大資料體系」，就跟「石油體系』一樣有勘探、採集、傳輸、加工、應用等；由此也萌生出一批「大資料體系」相關的工種。

阿里巴巴作為距離大資料最近的公司之一，既有豐富的資料資源也有豐富的應用場景，從它建構的大資料體系了解「大資料」這條生態鏈的全貌，我認為是比較科學的。

「阿里巴巴大資料系統體系」設計原則：滿足不斷變化的業務需求，同時實現系統的高度擴充套件性、靈活性以及資料展現的高效能。

「阿里巴巴大資料系統體系」主要分為資料採集、資料計算、資料服務和資料應用四大層次；

資料採集

web端日誌採集技術方案：aplus.js

生產業務—>大資料系統傳輸：

timetunnel(tt),既包括資料庫的增量資料傳輸，也包括日誌資料的傳輸；既支援實時流式計算，也支援各種時間視窗的批量計算；

資料同步工具（datax和同步中心）直連異構資料庫來抽取各種時間視窗的資料；

資料計算

maxcompute-離線計算平台：阿里自研的離線大資料平台，擁有強大的儲存和計算能力；

streamcompute-實時計算平台：阿里自研的流式大資料平台，支援流式計算需求；

onedata-資料整合及管理體系：資料整合及管理的方法體系和工具，大資料工程師在這一體系下，構建統

一、規範、可共享的全域資料體系，避免資料的冗餘和重複建設，規避資料煙囪和不一致性。

資料服務

oneservice-統一的資料服務平台：以資料倉儲整合計算好的資料作為資料來源，對外通過介面的方式提供資料服務，主要提供簡單資料查詢服務、複雜資料查詢服務和實時資料推送服務三大特色資料服務

資料應用

資料作為新能源，需要通過合適的應用提供給使用者，讓資料最大化地發揮價值。應用表現可以在搜尋、推薦、廣告、金融、物流等各個方面。

「阿里巴巴大資料系統體系」學習筆記 綱領篇