阿里開源DataX

2021-10-11 14:45:15 字數 974 閱讀 4683

datax是 阿里巴巴開源的乙個異構資料來源離線同步工具,致力於實現包括關係型資料庫(mysql,oracle等)、hdfs、hive、odps、hbase、ftp等各種異構資料來源之間穩定高效的資料同步功能。

三大功能

reader:資料採集模組,負責採集資料來源的資料,將資料傳送給framework

writer:資料寫入模組,負責不斷向framework取資料,並將資料寫入到目的端。

framework:用於連線reader和writer,作為兩者的資料傳輸通道,並處理緩衝,流控,併發,資料轉換等核心技術問題。

執行原理

job:單個任務的管理節點,負責資料清理、子任務劃分、taskgroup監控管理。

task:由job切分而來,是datax任務的最小單元,每個task負責一部分資料的同步工作。

schedule:將task組成taskgroup,單個taskgroup的併發數量為5。

taskgroup:負責啟動task.

wget
2.解壓

tar -zxvf datax.tar.gz
3.檢視是否可用

bin/datax.py job/jb.json
4.建立乙個模板

python bin/datax.py -r streamreader -w streamwriter
5.建立乙個oracl讀模板和乙個mysql寫模板

阿里DataX概述

datax 是一款支援任意異構資料系統離線資料交換的工具 框架 平台,實現了在任意的資料處理系統 rdbms hdfs local filesystem 之間的資料交換。目前datax支援數十種各類資料儲存 計算系統,每天為阿里集團傳輸資料高達數十t。datax服務的客戶不僅僅侷限於三淘 支付寶 阿...

阿里雲開源離線同步工具DataX3 0介紹

writer writer為資料寫入模組,負責不斷向framework取資料,並將資料寫入到目的端。framework framework用於連線reader和writer,作為兩者的資料傳輸通道,並處理緩衝,流控,併發,資料轉換等核心技術問題。資料來源reader 讀 writer 寫 rdbms...

阿里 DataX原始碼解讀彙總

將自己datax的系列文章進行彙總形成目錄 datax 1 編譯打包使用 datax 2 通過idea搭建原始碼閱讀 除錯環境 datax 3 win環境cmd亂碼 datax 4 datax.py解讀 datax 5 改造公升級 自動識別py環境,執行datax任務 datax 6 啟動步驟解析 ...