數倉 資料結構

2021-08-14 07:41:36 字數 2375 閱讀 6876

一、集結區(

staging area

)資料的集結過程指的是寫入磁碟

二、集結目的

可恢復 備份

審計:很多時候,源系統和目標系統之間的資料沿襲在

etl

**中丟失,當審計

etl

流程時,資料集結區的存在使得對

etl

流程中的不同階段的直接比較成為可能,因為這時候審計人員(或者程式設計師)可以簡單的比

較原始的輸入檔案和輸出檔案來檢查邏輯轉換規則。當源系統覆蓋了歷史資料時,集結資料特別有用。當乙個事件發生後,你可能對於資料倉儲中幾天甚至幾周的資料資訊的完整性產生了疑問,這時候對相應時段

的集結區的抽取資料進行檢查將能夠幫助你恢復對資料倉儲的資料準確性的信心。

集結區空間規模估算表:

表名稱。在集結區中的表或者檔案的名字。在計算表中每個集結表都占用一行。

 

載入頻率。

etl過程對錶中的資料以什麼樣的頻率載入和更改。通常是

每日一次。還可以為每週、每月或者任意的時間間隔。 在乙個實時環境

中,在集結區中的表可能不斷的被更新。

 etl

作業。集結區表通過

etl

作業進行操作和更新。

etl

作業指的是操作

集結區表或者檔案的作業或者程式。當多個作業操作單個的表的時候,

在估算表的這個欄位中列出所有的作業。

 初始行數。

etl小組必須估計在集結區初始的時候每個表中的記錄數。

記錄數通常和源表和目的表的行數有關。

 平均行長度。為了估算空間大小,必須將每個集結區表的平均行長度提

供給 dba

。在 oracle

環境中,我們通常在開發環境中建立表,執行統計

後從 all_tables

中收集這些資訊。例如,在

oracle

中 dbms_stats

包可以用於生成相應的統計字段資訊。

 增長。雖然每張表都是按照排程週期進行更新的,但不會每次都增長。

在估算表中的增長字段

(growwith)

是基於業務規則。你必須定義集結區

中的表何時會增長,例如乙個狀態表只有在增加新狀態的時候才會增長,

儘管這些表每天都會被訪問來檢視是否有變化,但是增加新的狀態的情

況並不常發生。

 預計每月行數。這個估計是根據歷史和業務規則。

dba

需要根據預期的

增長來給表分配空間。每月行數是計算每個月增長多少位元組的重要因素。

 預計每月位元組數。預計每月位元組數等於平均行長度乘以預計每月行數。

 初始表大小。初始表大小通常用位元組或者兆位元組來表示。取值等於平均

行長度乘以初始行數。

 6

個月表大小。

6 個月表大小的估算可以幫助

dba

小組估計集結區資料

庫或檔案系統的增長情況,通常用兆位元組表示,計算公式為 ((平均行

長度 *

初始行數)

+(平均行長度

*預計月行數

* 6))

/1,048,576 。

三、資料結構

元資料捕獲

 資料譜系:所有資料倉儲元資料庫中最有趣的元資料可能就是資料譜系,

或者稱為邏輯資料對映,闡述了資料元素從原始資料源到最終資料倉儲

目標之間是如何轉換的。

 業務定義:資料集結區中建立的所有表都是從業務定義中衍生出來的。

業務定義可以從很多地方獲得,包括資料建模工具、

etl

工具、資料庫

自身或者電子**和

word

文件。無論如何,需要使用在資料倉儲展示

層上獲取業務定義來維持其一致性。

 技術定義:尤其對於資料集結區,技術定義要比業務定義更加的普遍。

要記住,如果沒有文件記錄,那麼就意味著技術定義不存在!如果資料

集結區中表的技術定義沒有詳細的文件,那麼這張表將可能被一次次的

重建,會在資料集結區中產生大量的資料重複,導致資料**。技術定

義應該描述資料元素的所有物理屬性,包括結構、格式和位置。對集結

區中所有表進行技術元資料文件化記錄可以將不確定性降至最低,並提

高重用性。

 過程元資料:資料集結區表的載入過程的統計必須和資料倉儲表載入的

統計一起記錄。儘管資料集結區載入過程的資訊不需要展示給終端使用者,

但是 etl

小組需要知道每個表中載入了多少記錄,每個過程成功或失敗

的統計結果。而資料重新整理頻度方面的資訊對

etl

管理員和終端使用者都是

有用的

數倉分層結構

資料倉儲 data warehouse 簡寫dw,在一般企業中,由下到上依次分為 dwd dwb或dwm dws。dwd data warehouse detail 是業務層與資料倉儲的隔離層。dwm date warehouse middle 或者叫dwb data warehouse base ...

數倉建模的edw 數倉結構幾層,作用

資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及控制。資料倉儲,並不是資料的最...

面試 數倉 數倉和資料庫的區別

2者的命名無論中英文其實並無不同,base和warehouse。要從以下幾個方面來區分 拿mysql這個資料庫和apache hive這個資料倉儲為例。這裡hive事實上就是乙個很巨集大的 體系結構 它可以把元資料儲存在mysql oracle或者derby這些具體的資料庫 技術 裡 它在進行查詢時...