大資料 ETL之增量資料抽取 CDC

2022-03-11 12:35:52 字數 519 閱讀 5576

本文遵循 gpl開源協議,如若**:

change data capture,變化的資料捕獲,也稱:【增量資料抽取】(名詞解釋)

cdc是一種實現資料的增量抽取解決方案,是實現【etl整體解決方案】中的一項子方案/子問題。(對cdc的定位)

在etl專案中,面臨需要抽取哪部分資料載入到資料倉儲?全量抽取,還是增量抽取?

如何捕獲變化的資料是增量抽取的關鍵,對捕獲方法一般有2點要求:

按cdc方案的任一操作是否對資料來源系統產生影響(效能、功能等),分為:【侵入式cdc】、【非侵入式cdc】

按cdc方案所抽取的資料與資料來源系統的變化資料是否在規定時間內同步,分為:【同步cdc】、【非同步cdc】

以下,對各實現方案進一步地詳細描述。

例如:資料庫廠商oracle

oracle新增cdc特性,其在【資料庫層面】上直接實現增量抽取功能;

在【效能層面】,由於和資料庫引擎的直接整合,比第三方的實現方案應具有一定的優勢。

cdc(oracle增量抽取解決方案) - 百科

ETL資料抽取 全量 增量

在根據使用者需求選擇需要抽取的字段之外,我們通常需要選擇採用全量或者增量的方法進行資料抽取。全量抽取指的是從源系統中將表內資料不加行的篩選,全部抽取 增量抽取指的是只抽取前次抽取之後發生變化或者新增的資料 增量抽取的資料難度較大,要保證資料不能多抽取,漏抽取 在源表資料量較大,大部分資料一經入庫改動...

ETL之增量抽取方式

例如,對於源表為oracle型別的資料庫,採用觸發器方式進行增量資料捕獲的過程如下 這樣,對錶t的所有dml操作就記錄在增量日誌表dml log中,注意增量日誌表中並沒有完全記錄增量資料本身,只是記錄了增量資料的 進行增量etl時,只需要根據增量日誌表中的記錄情況,反查源表得到真正的增量資料。sql...

增量資料抽取

a.觸發器 在要抽取的表上建立需要的觸發器,一般要建立插入 修改 刪除三個觸發器,每當源表中的資料發生變化,就被相應的觸發器將變化的資料寫入乙個臨時表,抽取執行緒從臨時表中抽取資料,臨時表中抽取過的資料被標記或刪除。觸發器方式的優點是資料抽取的效能較高,缺點是要求業務表建立觸發器,對業務系統有一定的...