「阿里巴巴大資料系統體系」學習筆記 綱領篇

2021-08-26 08:58:02 字數 1329 閱讀 5376

摘要: 『你是做什麼的?』 『資料產品經理』看到對方一臉懵逼之後,再補充一句『大資料相關的工作』 『哦~,高大上,不懂』 過去5年,『大資料』是最火的乙個概念,被紛繁解讀。在我看來,資料跟石油、煤炭一樣是一種資源。

「你是做什麼的?」

「資料產品經理」看到對方一臉懵逼之後,再補充一句

「大資料相關的工作

」「哦~,高大上,不懂」

過去5年,「大資料」是最火的乙個概念,被紛繁解讀。在我看來,資料跟石油、煤炭一樣是一種資源。這種資源其實很早之前就被發現、被應用。只不過因為網際網路的發展,資料這種資源呈現出了「**式」的增長,而人們也發現了它巨大的潛在價值;預計到2023年,全球資料總量將超過40zb(相當於40萬億gb)。

所以面對如此「量大」、「價值大」的資源,我們需要建立一套從資料採集、計算到服務到應用的「大資料體系」,就跟「石油體系』一樣有勘探、採集、傳輸、加工、應用等;由此也萌生出一批「大資料體系」相關的工種。

阿里巴巴作為距離大資料最近的公司之一,既有豐富的資料資源也有豐富的應用場景,從它建構的大資料體系了解「大資料」這條生態鏈的全貌,我認為是比較科學的。

「阿里巴巴大資料系統體系」設計原則:滿足不斷變化的業務需求,同時實現系統的高度擴充套件性、靈活性以及資料展現的高效能。

「阿里巴巴大資料系統體系」主要分為資料採集、資料計算、資料服務和資料應用四大層次;

資料採集

web端日誌採集技術方案:aplus.js

生產業務—>大資料系統傳輸:

timetunnel(tt),既包括資料庫的增量資料傳輸,也包括日誌資料的傳輸;既支援實時流式計算,也支援各種時間視窗的批量計算;

資料同步工具(datax和同步中心)直連異構資料庫來抽取各種時間視窗的資料;

資料計算

maxcompute-離線計算平台:阿里自研的離線大資料平台,擁有強大的儲存和計算能力;

streamcompute-實時計算平台:阿里自研的流式大資料平台,支援流式計算需求;

onedata-資料整合及管理體系:資料整合及管理的方法體系和工具,大資料工程師在這一體系下,構建統

一、規範、可共享的全域資料體系,避免資料的冗餘和重複建設,規避資料煙囪和不一致性。

資料服務

oneservice-統一的資料服務平台:以資料倉儲整合計算好的資料作為資料來源,對外通過介面的方式提供資料服務,主要提供簡單資料查詢服務、複雜資料查詢服務和實時資料推送服務三大特色資料服務

資料應用

資料作為新能源,需要通過合適的應用提供給使用者,讓資料最大化地發揮價值。應用表現可以在搜尋、推薦、廣告、金融、物流等各個方面。

阿里巴巴大資料之路

資料治理 對這些資料進行有序 有結構地分類組織和儲存,目前企業資料現狀 集團資料儲存達到eb 1eb 1024pb 2 60位元組 級別,部分單張表每天的資料記錄數高達幾千億條 資料工程師工作 資料工程師每天要面對百萬級規模的離線資料處理工作。資料模型 資料研發 資料質量和運維保障工作。大資料系統體...

《大資料之路 阿里巴巴大資料實踐》筆記

阿里巴巴大資料系統體系主要分為,資料採集 資料計算 資料服務和資料應用四大層次。瀏覽器的頁面日誌採集 h5裝置標識 日誌傳輸資料同步基礎 不過濾刪除流水,下游邏輯刪除 過濾最後一條刪除流水,比如存在手工批量刪除或者備份刪除,則資料還是有效的不應當置為無效 過濾刪除流水和之前的流水 阿里資料倉儲的同步...

《阿里巴巴規範》筆記

1.強制 執行緒池不允許使用 executors 去建立,而是通過 threadpoolexecutor 的方式,這樣的處理方式讓寫的同學更加明確執行緒池的執行規則,規避資源耗盡的風險。說明 executors 返回的執行緒池物件的弊端如下 1 fixedthreadpool 和 singlethr...