ETL資料抽取 全量 增量

2021-08-28 00:23:16 字數 601 閱讀 7938

在根據使用者需求選擇需要抽取的字段之外,我們通常需要選擇採用全量或者增量的方法進行資料抽取。全量抽取指的是從源系統中將表內資料不加行的篩選,全部抽取;增量抽取指的是只抽取前次抽取之後發生變化或者新增的資料(增量抽取的資料難度較大,要保證資料不能多抽取,漏抽取)。

在源表資料量較大,大部分資料一經入庫改動可能較小時一般採用增量抽取的方式;對於表數量較小或者維表這類情況會進行增量抽取。

對錶進行增量抽取時,需要較好的判別出新增或者發生變化的資料,在系統設計時,常見的有下面兩種方法:

1. 觸發器方法: 當需要抽取的表中發生新增、修改、刪除時,觸發觸發器,觸發器將資料插入臨時表,之後抽取只抽取臨時表,抽取時對臨時表資料打標記或者刪除。

2. 時間戳方法:

在源系統表中增加乙個時間戳字段,在使用者對這條記錄進行增刪改查時,更新時間戳,進行資料抽取時使用時間戳來判斷這條記錄是否要抽取。加時間戳優點為抽取相對簡單,但是對源系統依賴較強。

全量抽取出來的表對資料倉儲進行更新時,可採用全表刪除的方法,優點在於簡單快捷,但是如果需要保留修改記錄時,需要採用資料快照設計;增量抽取出來的表對資料庫進行更新,可以使用merge的方式進行更新操作,這種方法邏輯較複雜,速度較慢,且要求源表主鍵能夠匹配識別。

ETL增量抽取方案

一 etl體系結構 資料庫 抽取 轉換 載入 目的資料來源 二 etl抽取方案 1 全量抽取 全量抽取類似於資料遷移或資料複製,它將資料來源中的表或檢視的資料原封不動的從資料庫中抽取出來,並轉換成自己的etl工具可以識別的格式,全量抽取比較簡單。全量抽取一般只在系統初始化時使用,全量一次後,就要每天...

ETL增量抽取方式

增量是以乙個時間段為計量單位,記錄該段時間內較以前增加的資料記錄。增量抽取是將該段時間內增長的記錄查詢出來。增量抽取一般有三種抽取模式,用於捕獲源系統新增的資料到系目標庫中 1 時間戳方式,要求源表中存在乙個或多個字段 時間戳 其值隨著新紀錄的增加而不斷增加,執行資料抽取時,程式通過時間戳對資料進行...

資料抽取 增量與全量的區別

當乙個資料需要儲存多份時,會出現一致性問題,所以就需要進行同步,同步分為兩種 增量和全量。簡單來說,就是在一定的週期中,把當前系統在週期時間內所有資料複製到目標表 系統這樣的同步方式就叫做 全量 增量同步的前提是全量,然後再更具規則增量同步 增量的基礎是全量,就是你要使用某種方式先把全量資料拷貝過來...