阿里雲資料整合平台使用教程

2021-09-13 20:23:29 字數 2329 閱讀 5873

資料整合(data integration)是阿里集團對外提供的可跨異構資料儲存系統的、可靠、安全、低成本、可彈性擴充套件的資料同步平台,為20+種資料來源提供不同網路環境下的離線(全量/增量)資料進出通道,是阿里集團對外提供的穩定高效、彈性伸縮的資料同步平台。致力於提供複雜網路環境下、豐富的異構資料來源之間資料高速穩定的資料移動及同步能力。

關於阿里雲資料整合平台使用教程:阿里雲資料整合平台使用教程

離線(批量)資料同步簡介

離線(批量)的資料通道主要通過定義資料**和去向的資料來源和資料集,提供一套抽象化的資料抽取外掛程式(稱之為 reader)、資料寫入外掛程式(稱之為 writer),並基於此框架設計一套簡化版的中間資料傳輸格式,從而達到任意結構化、半結構化資料來源之間資料傳輸的目的。

支援資料來源型別

資料整合提供豐富的資料來源支援,如下所示:

文字儲存(ftp / sftp / oss / 多**檔案等)。

資料庫(rds / drds / mysql / postgresql 等)。

nosql(memcache / redis / mongodb / hbase 等)。

大資料(maxcompute / analyticdb / hdfs 等)。

mpp 資料庫(hybriddb for mysql 等)。

更多詳情請參見 支援資料來源型別。

注意:

由於每個資料來源的配置資訊差距較大,需要根據使用情況詳細查詢引數配置資訊。所以在資料來源配置、作業配置頁面提供了詳細描述,請您根據自身情況進行查詢使用。

同步開發說明

同步開發提供兩種開發模式:嚮導模式和指令碼模式。

指令碼模式:您可以通過直接編寫資料同步的 json 指令碼來完成資料同步開發,適合高階使用者,學習成本較高。指令碼模式可以提供更豐富靈活的能力,做精細化的配置管理。

注意:

嚮導模式生成的**可以轉換為指令碼模式,此轉換為單向操作,轉換完成後無法恢復到嚮導模式。因為指令碼模式能力是嚮導模式的超集。

**編寫前需要完成資料來源的配置和目標表的建立。

網路型別說明

網路型別分為:經典網路、專有網路(vpc)、本地 idc 網路(規劃中)。

經典網路:統一部署在阿里雲的公共基礎網路內,網路的規劃和管理由阿里雲負責,更適合對網路易用性要求比較高的客戶。

本地 idc 網路:您自身構建機房的網路環境,與阿里雲網路是隔離不可用的。

經典網路和專有網路相關問題請參見 經典網路和 vpc 常見問題 faq 。

補充說明:

網路連線可以支援公網連線,網路型別選擇經典網路即可。需要注意公網頻寬的速度和相關網路費用消耗。無特殊情況不建議使用。

規劃中的網路連線,進行資料同步,可以使用本地新增執行資源 + 指令碼模式的方案進行資料同步傳輸。或者使用 shell + datax 方案,此方案請參見 使用 shell 執行 datax 任務。

專有網路 vpc 是構建乙個隔離的網路環境,可以自定義 ip 位址範圍、網段、閘道器等隨著專有網路安全性提高,專有網路運用越來越廣,所以資料整合提供了 rds-mysql、rds-sql server、rds-postgresql,在專有網路下不需要購買一台跟 vpc 同網路的 ecs,系統通過反向**會自動檢測從而網路能夠互通。對於阿里雲其他的資料庫 ppas、oceanbase、redis、mongodb、memcache、tablestore、hbase 等,後續也會提供支援。所以非 rds 的資料來源在專有網路下配置資料整合的同步任務需要購買同網路的 ecs,這樣可以通過 ecs 連通網路。

約束與限制

支援且僅支援結構化(例如 rds、drds 等)、半結構化、無結構化(oss、txt 等,要求具體同步資料必須抽象為結構化資料)的資料同步。換言之,data integration 支援傳輸能夠抽象為邏輯二維表的資料同步,其他完全非結構化資料,例如 oss 中存放的一段 ***,data integration 暫未支援將其同步到 maxcompute,這個功能會在後期實現。

支援單個和部分跨 region 地域內資料儲存相互同步、交換的資料同步需求。

部分地域通過經典網路是可以傳輸的,不能保證。如果必須使用且測試經典網路不通,可以考慮使用公網方式連線。

僅完成資料同步(傳輸),本身不提供資料流的消費方式。

阿里云云計算助理工程師認證(aca)

阿里雲大資料助理工程師認證(aca)

阿里云云安全助理工程師認證(aca)

阿里雲資料整合平台使用教程

阿里雲大學課程 阿里雲資料整合平台使用教程 課程介紹 資料整合 data integration 是阿里集團對外提供的可跨異構資料儲存系統的 可靠 安全 低成本 可彈性擴充套件的資料同步平台,為20 種資料來源提供不同網路環境下的離線 全量 增量 資料進出通道。產品詳情 課時列表 課時1 資料整合 ...

阿里雲資料整合平台使用教程

資料整合 data integration 是阿里集團對外提供的可跨異構資料儲存系統的 可靠 安全 低成本 可彈性擴充套件的資料同步平台,為20 種資料來源提供不同網路環境下的離線 全量 增量 資料進出通道,是阿里集團對外提供的穩定高效 彈性伸縮的資料同步平台。致力於提供複雜網路環境下 豐富的異構資...

大資料 阿里雲資料整合平台使用教程

資料整合 data integration 是阿里集團對外提供的可跨異構資料儲存系統的 可靠 安全 低成本 可彈性擴充套件的資料同步平台,為20 種資料來源提供不同網路環境下的離線 全量 增量 資料進出通道,是阿里集團對外提供的穩定高效 彈性伸縮的資料同步平台。致力於提供複雜網路環境下 豐富的異構資...