大資料之路 阿里巴巴大資料實踐 資料同步要點

2021-09-10 02:17:30 字數 495 閱讀 5225

使用者建立資料同步任務,並提交該同步任務。

根據系統提前獲知及設定的資料,估算該同步任務需要同步的資料量、平均同步速度、首輪執行期望的執行緒數、需要同步的匯流排程數。

根據需要同步的匯流排程數將待同步的資料拆分成相 等數量的資料塊,乙個執行緒處理乙個資料塊,並將該任務對應的所有執行緒提交至同步控制器。

同步控制器判斷需要同步的匯流排程數是否大於首輪執行期望的執行緒數,若大於,則跳轉至 5若不大於,則跳轉至6。

同步控制器採用多機多執行緒的資料同步模式,準備該任務第一輪執行緒的排程,優先傳送等待時間最長、優先順序最高且同一任務的執行緒。

同步控制器準備一定資料量(期望首輪執行緒數-匯流排程數)的虛擬執行緒,採用單機多執行緒的資料同步模式 ,準備該任務相應實體線程和虛擬執行緒的排程,優先傳送等待時間最長、優先順序最高且單機 cpu 剩餘資源可以支援首輪所有執行緒數且同 任務的執行緒,如果沒有滿足條件的機器,則選擇 cpu 剩餘資源最多的機器進行首輪傳送。

資料任務開始同步,並等待完成。

資料任務同步結束。

《大資料之路 阿里巴巴大資料實踐》筆記

阿里巴巴大資料系統體系主要分為,資料採集 資料計算 資料服務和資料應用四大層次。瀏覽器的頁面日誌採集 h5裝置標識 日誌傳輸資料同步基礎 不過濾刪除流水,下游邏輯刪除 過濾最後一條刪除流水,比如存在手工批量刪除或者備份刪除,則資料還是有效的不應當置為無效 過濾刪除流水和之前的流水 阿里資料倉儲的同步...

《大資料之路 阿里巴巴大資料實踐》讀書筆記

ps 這本書主講阿里的大資料體系架構方案,從底層到高層闡述,目前對我來說此書的難度較大,不是很懂,大部分為對原書的引用歸納,我會給出相應的大牛的關於此書的讀書筆記的傳送門供參考。以下為大牛關於本書的讀書筆記供參考 讀書筆記傳送門 整本書分為四篇幅,共分16個章節分別闡述阿里巴巴在大資料的挑戰下的各個...

阿里巴巴大資料之路

資料治理 對這些資料進行有序 有結構地分類組織和儲存,目前企業資料現狀 集團資料儲存達到eb 1eb 1024pb 2 60位元組 級別,部分單張表每天的資料記錄數高達幾千億條 資料工程師工作 資料工程師每天要面對百萬級規模的離線資料處理工作。資料模型 資料研發 資料質量和運維保障工作。大資料系統體...