數倉建表規範

2022-10-10 21:00:13 字數 1697 閱讀 3641

概念: ods層是從業務系統過渡到資料倉儲核心層的運算元據的儲存層,ods層的資料結構與業務系統基本保持一致,同時不做長時間的資料儲存。

說明:最原始的資料,儲存格式txt。

概念: dwd層是維度和事實屬性、度量資訊融合所生成的明細寬表層,其設計目的是為後續的dws層提供基礎,也可以在dws層無法支撐需求時直接為ads層提供資料。dwd層作為資料模型架構的核心明細層,一般要考慮擴充套件性和相容性,其核心邏輯的變動要對下游保持盡可能的透明

說明: 儲存經過標準規範化處理(即資料清洗)後的運營資料

概念:dws層面向分析主題建模。dws層的設計目的是為ads層提供足夠的靈活性和擴充套件性的基礎。

概念:ads層主要包括對資料結果的加工整合,以滿足資料應用的最終使用需要

說明:應用資料層, 面向具體應用的表,要建立在這層,可匯入hbase或mysql等使用。例項:按季、月、周、天、小時等粒度計算彙總的結果存入mysql、hbase的報表

概念:維度資料層,主要包含一些業務維度資料。例項:地區表,渠道表,行為表。

說明:命名:

說明: 測試用的表。

1.資料要乾淨、有效

​ 要保證進入資料模型的資料是經過清洗和規範的。

2.模型可擴充套件

​ 核心模型要盡可能保持穩定,經常變化的業務可以通過擴充套件模型進行分離。

3.禁止逆向呼叫

​ 禁止逆向呼叫,例如不能出現ods層呼叫cdm層和ads層的資料。

4.資料可回滾

​ 資料模型多次重跑的結果資料必須保持一致。

5.成本控制

​ 在構建資料模型時,要充分考慮計算和儲存資源間的平衡。

即ods->dwd->dw->dws->ads。

正常流向:ods->dwd->dw->dws->ads,當出現ods->dwd->dws->ads這種關係時,說明

主題域未覆蓋全。應將dwd資料落到dw中,對於使用頻度非常低的表允許dwd->dws。

盡量避免出現dws寬表中使用dwd又使用(該dwd所歸屬主題域)dw的表。

同一主題域內對於dw生成dw的表,原則上要盡量避免,否則會影響etl的效率。

dw、dws和ads中禁止直接使用ods的表, ods的表只能被dwd引用。

禁止出現反向依賴,例如dw的表依賴dws的表。

資料庫名稱資料庫釋義

物理表命名規範資料儲存格式

odsods

從公司各業務mysql表同步的快照資訊和運營埋點資料

埋點日誌:ods_log_ 運營資料庫:ods_

text

dwddwd

包含公司 各業務經 過etl後 的基礎事 實明細表

埋點日誌:dwd_log_業務過程_更新 方式_時間粒度 運營資料庫:dwd_ 多資料來源:dwd

parquet

dwsdws

按資料、 業務專題 進行劃分 的輕度匯 總資料

dws__

parquet

dimdim

業務維度 相關的字 典資料

dim_

text

tmptemp

存放資料 計算過程 中的臨時 結果表

tmp_

parquet

adsads

存放面向 各業務應 用分析的 通用結果 表

ads__

text\parquet

數倉設計規範

此規範源自滴滴工作期間的實踐 一 數倉層級層級 全拼中文說明 備註dim dimension 維度層dim資料層的表主要存放維度資料。資料表可以由手動維護的乙個檔案生成,或者先將mysql的原始資料表拉取到ods層,在通過hql轉換為dim表。該層為維度資料,維度是對具體分析物件的分析角度,維度要具...

mysql建表規範

create table dbname bodyguard black box id int 11 not null auto increment,login id varchar 64 default null comment 使用者登入賬號,手機號 bize code varchar 64 de...

數倉dw怎麼建 網易嚴選如何打造數倉規範和評價體系

資料為王的時代,資料量從最初的幾十 g,慢慢沉澱到幾十 t,甚至幾十 pb 的量。資料工程師,也從最初的 etl 工程師慢慢成長為資料全棧工程師 採集 同步 模型 離線 實時 規範 平台 工具 產品 互動 保障 資料體系等等。資料倉儲,是我們資料工程師的無形產品,不同於視覺化 互動型產品的評價體系 ...