資料增量更新定義 資料倉儲

2021-10-11 16:09:35 字數 2754 閱讀 5857

背景:結合公司的數倉體系,和工作經歷,談一談資料倉儲體系。

首先在編寫這邊文章之前,需要知道什麼是資料倉儲。

資料倉儲之父bill inmon在2023年出版的「building the data warehouse」一書中所提出的定義被廣泛接受——資料倉儲是乙個面向主題的、整合的、相對穩定的、反映歷史變化的資料集合,用於支援管理決策。

資料倉儲搭建體系

評判標準

個人認為主要從五個指標考量:穩定、可信、豐富、透明、安全

資料治理說白了就是怎麼能知道有哪些資料,存哪了,誰在用,怎麼用,啥時候用,給誰提供服務了。

文縐縐一點,就是「資料管理」,「資料血緣」,「資料開發」,「資料分析」,「運維監控」,「資料服務」,等這一系列的能力。

傳統的資料模型是e-r模型,數倉建模以維度建模為主。

維度建模主要從4個維度去考量:選擇業務過程->宣告粒度->確認維度->確認事實;

1、選擇業務過程

業務過程是由組織完成的微觀活動,通常描述一段業務過程,如獲得訂單、學生註冊、接收付款。業務過程包含以下公共特徵

2、宣告粒度

粒度的宣告尤為重要,如果不能清楚的定義粒度,整個設計就像建立在流沙之上。

3、確定維度

4、確定事實

比如說有個零售業務50元買10隻筆。按照維度建模的思路

業務過程

粒度維度

事實銷售

訂單的建立

店鋪、商品、日期維度、出納維度、**維度

零售銷售事實

零售模式中的可度量事實

雪花模型:有些維表可能不與事實表直接關聯,而是通過其他維表關聯到事實表。資料冗餘量較小

星座模型:由多個事實表相組合,維表是公共的。企業中一般都是星座模型

雪花模型和星型模型的主要區別就在於維度表有沒有外來鍵

目前來說業界採用的比較多的是星型模型。我認為主要原因是現在儲存資源是廉價的。計算資源比較稀缺、比較貴。當採用了雪花模型,雖然儲存資源減少了,但是會存在多表的join導致可能會浪費計算資源。

建設資料倉儲之前需要定義一系列的標準,從資料層級規劃、主題劃分、業務線劃分、表型別劃分、表庫命名規則、字段命名規範

(一)層級規範

(二)主題劃分

主題域英文簡寫

說明營銷

campaign

cpn指企業發現或發掘客戶需求,讓客戶了解該產品進而購買該產品的過程,例如雙十一大促,618**活動等。

商品goods

gds可市場化的產品、產品包和服務

事件event

evt事件是當事人發起的行為活動,它記錄了詳細的活動資料。

......

......

(三)業務線劃分

...

(四)表型別劃分

(五)表、檢視、資料庫命名

(1)ods層表命名:

ods_[資料庫名稱/http/flume/spider]_[例項簡寫]_[業務系統表/生成程式名]_[更新週期(y/q/m/d/h)&更新策略(有分割槽增量s/有分割槽全量d/無分割槽全量a)]

(2)dl層表命名:

dl_[資料庫名稱/http/flume/spider]_[例項簡寫]_[業務系統表/生成程式名]_[更新週期(y/q/m/d/h)&更新策略(有分割槽增量s/有分割槽全量d/無分割槽全量a)]

(3)dwd層表命名:

dwd_[資料庫名稱/http/flume/spider]_[例項簡寫]_[業務系統表/生成程式名]_[更新週期(y/q/m/d/h)&更新策略(有分割槽增量s/有分割槽全量d/無分割槽全量a)]

(4)dwb層表命名:

dwb_[主題]_[子主題]_[業務線/子業務線]&表型別(/f/d/l)]_[實際含義*]_[更新週期(y/q/m/d/h)&更新策略(有分割槽增量s/有分割槽全量d/無分割槽全量a)]

(5)dws層表命名:

dws_[主題]_[子主題]_[業務線/子業務線]&表型別(/f/d/l)]_[實際含義*]_[更新週期(y/q/m/d/h)&更新策略(有分割槽增量s/有分割槽全量d/無分割槽全量a)]

(6)dm層表命名:

dm/ws_[主題]_[子主題]_[業務線/子業務線]&表型別(/f/d/l)]_[實際含義*]_[更新週期(y/q/m/d/h)&更新策略(有分割槽增量s/有分割槽全量d/無分割槽全量a)]

(六)字段命名規範

其實資料倉儲包含的東西還蠻多的,元資料管理、血緣管理、指標管理等,每一種都包含很多東西。就先簡單的描述下數倉。後續有時間在更新吧。。。

資料倉儲 大資料定義

2012年gartner公司將大資料定義為3v,即 大容量 volume 高流速 velocity 多樣化 variety 後來人們在3v基礎上增加新的v veracity 即真實性。現在人們普遍認可的大資料是具有4v,即 volume velocity variety veracity,也就是大 ...

資料倉儲 資料倉儲部署

1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...

資料倉儲,什麼是資料倉儲?

資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲是為企業所有級別的決策制定過程提供支援的所有型別資料的戰略集合。它是單個資料儲存,出於分析性報告和決策支援的目的而建立。為企業提供需要業務智慧型來指導業務流程改進和監視時間 成本 質量和控制。資料倉儲是決策支援系統 ds...