阿里巴巴大資料之路

2021-10-07 04:21:23 字數 979 閱讀 5783

資料治理:對這些資料進行有序、有結構地分類組織和儲存,

目前企業資料現狀:集團資料儲存達到eb (1eb=1024pb==2^60位元組)級別,部分單張表每天的資料記錄數高達幾千億條:

資料工程師工作:資料工程師每天要面對百萬級規模的離線資料處理工作。資料模型、資料研發、資料質量和運維保障工作。

大資料系統體系:資料採集、資料計算、資料服務和資料應用 

資料傳輸體系: timetunnel (tt ):括資料庫的增量資料傳輸,日誌資料 的傳輸;既支援實時流式計算,,也 支援各種時間視窗的批量計算。

資料同步工具:datax ,同步中心(基於 datax 易用性封裝的))直連異構資料庫 (備庫)來抽取各種時間視窗的資料。

關於異構資料庫:

兩大體 系:資料儲存及計算雲平台(離線計算平台 maxcompute 和實時計算 strea compute)

和資料整合及管理體系(「onedata 」)(建統

一、規範、可共享的全域資料體系 ,避免資料的 冗餘和重複建設 ,規避資料煙囪和不一致性)

資料公共層

實時資料倉儲(「雙 1 」實時資料直播大屏)

元資料模型整合及應用:包含資料來源元資料、資料倉儲元資料 、資料鏈路元資料、工 類元資料 資料質量類元資料等。

針對不同的需求,資料服務層的 資料來源架構在多種資料庫之上,如 mysql hbase 等。後續將逐漸遷 移至阿里云云資料庫 apsaradb for rds (簡稱「 rds 」)和**儲存( table store )等。

資料服務平台( 「oneservice 」),one service 以資料倉儲整合計算好 的資料作為資料來源,對外通過介面的方式提供資料服務,主要提供簡單 資料查詢服務、複雜資料查詢服務(承接集團使用者識別、使用者畫像等複雜資料查詢服務)和實時資料推送服務 大特色資料服務。

對外資料應用產品:生意參謀

《大資料之路 阿里巴巴大資料實踐》筆記

阿里巴巴大資料系統體系主要分為,資料採集 資料計算 資料服務和資料應用四大層次。瀏覽器的頁面日誌採集 h5裝置標識 日誌傳輸資料同步基礎 不過濾刪除流水,下游邏輯刪除 過濾最後一條刪除流水,比如存在手工批量刪除或者備份刪除,則資料還是有效的不應當置為無效 過濾刪除流水和之前的流水 阿里資料倉儲的同步...

大資料之路 阿里巴巴大資料實踐 資料同步要點

使用者建立資料同步任務,並提交該同步任務。根據系統提前獲知及設定的資料,估算該同步任務需要同步的資料量 平均同步速度 首輪執行期望的執行緒數 需要同步的匯流排程數。根據需要同步的匯流排程數將待同步的資料拆分成相 等數量的資料塊,乙個執行緒處理乙個資料塊,並將該任務對應的所有執行緒提交至同步控制器。同...

《大資料之路 阿里巴巴大資料實踐》讀書筆記

ps 這本書主講阿里的大資料體系架構方案,從底層到高層闡述,目前對我來說此書的難度較大,不是很懂,大部分為對原書的引用歸納,我會給出相應的大牛的關於此書的讀書筆記的傳送門供參考。以下為大牛關於本書的讀書筆記供參考 讀書筆記傳送門 整本書分為四篇幅,共分16個章節分別闡述阿里巴巴在大資料的挑戰下的各個...