資料倉儲ETL演算法之拉鍊演算法

2021-09-19 19:02:38 字數 2625 閱讀 6347

目錄

拉鍊定義

拉鍊表資料儲存方式

拉鍊的意義

拉鍊演算法詳解

歷史儲存資料的倆種方式:

下面用一組業務資料來解釋倆者區別:

業務系統2023年1月1日的資料

賬戶id

戶名餘額

001張三

2000

業務系統2023年1月15日的資料

賬戶id

戶名餘額

001張三

2000

業務系統2023年2月1日的資料

賬戶id

戶名餘額

001張三

4000

以上是賬戶id001戶名為張三的業務資料,分別用倆種歷史資料儲存方式來儲存。

快照儲存方式如下:

快照儲存方式

賬戶id

戶名餘額

資料日期

001張三

2000

2014-01-01

001張三

2000

2014-01-15

001張三

4000

2014-02-01

拉鍊儲存方式如下:

拉鍊儲存方式

賬戶id

戶名餘額

開始日期

結束日期

001張三

2000

2014-01-01

2014-02-01(閉鏈)

001張三

4000

2014-02-01(開鏈)

2999-12-31

資料儲存方式--新增

主鍵(賬戶id)

新增資料:即主鍵新增,直接開鏈

資料儲存方式--刪除

主鍵(賬戶id)

刪除資料:即資料刪除,直接關鏈

資料儲存方式--修改

主鍵(賬戶id)

修改資料:即屬性欄位的更新,先關鏈,再開鏈

1.建立臨時表vt_new用於存放轉換、處理後的資料

2.建立臨時表vt_inc用於存放比對出的增量資料

3.修改目標表,進行關聯更新操作

4.修改目標表,進行開鏈插入操作

ETL拉鍊演算法簡介

1.拉鍊表時針對資料倉儲設計中表儲存資料的方式而定義的,即記錄歷史,記錄乙個事務從開始,一直到當 前狀態的所有變化的資訊 2.拉鍊表的資料可分為 保持不變的資料,insert的資料,delete的資料,updated的資料 拉鍊表的操作可分為 無變化,新開鏈以結束日期為最大日期 有效日期 關鏈 結束...

資料倉儲 ETL

etl這個過程可以說下整套資料流程下來最枯燥也是最耗時間的流程,但是也是最重要的。很多時候我們不缺資料,缺的是好資料,而etl的結果則導致下游成員的資料質量。etl是貫穿數倉的整個環節,不是說只是在某乙個地方才使用的。etl工作的實質就是從各個資料來源提取資料,對資料進行轉換,並最終載入填充資料到資...

資料倉儲之ETL導讀

etl是資料抽取 extract 轉換 transform 載入 load 的簡寫,它是將oltp系統中的資料經過抽取,並將不同資料來源的資料進行轉換 整合,得出一致性的資料,然後載入到資料倉儲中。簡而言之etl是完成從 oltp系統到olap系統的過程。看過這樣一本書,將etl比作餐館的後廚,後廚...