分布式資料倉儲事實表設計思考

2021-10-07 10:01:17 字數 857 閱讀 8476

一、前言

最近在設計資料倉儲的資料邏輯模型,考慮到海量資料儲存在分布式資料倉儲中的技術架構模式,需要針對傳統的面相關係型資料倉儲的資料儲存模型進行技術改造。設計出一套真正適合分布式資料倉儲的資料儲存模型。

二、事實表設計基礎

事實表記錄發生在現實世界中的操作型事件,其所產生的可度數值。事實表的設計完全依賴於物理活動,不受可能產生的最終報表的影響。事實表中,除數字度量外,事實表總是包含外來鍵,用於關聯與之相關的維度,也可以包含退化的維度鍵和日期/時間戳。

三、傳統模式

以fs-ldm資料儲存模型event主題域資料儲存模型設計為例,其事件主題域資料邏輯模型結構如下圖所示:

傳統模式的主要問題如下:如果資料量很小的情況下,執行多表關聯,沒有問題,但是當在分布式資料倉儲,單錶儲存海量資料的情況下,很明顯模式將面臨挑戰。

三、分布式模式-維度建模新原則

(1)以值代鍵:針對鍵值唯一的維表,除非必要,否則不引入維表,如ip位址維表,採用ip作為維表的主鍵,事實表中儲存ip值;

(2)合理分表:傳統關係型資料倉儲存在多表整合的衝動,如上圖event事實表,各種acount ind,finance ind等,用來擴充套件表的通用性,試圖把所有的資料都儲存到一張表中。分布式資料倉儲的設計,恰恰相反,因為單錶資料規模的問題,如果要滿足分析和處理的效能,合理的按照業務進行資料的分表儲存。如財務相關事件、賬戶相關事件,單獨成表。更有利於資料的計算和分析。 

四、分布式維度模型例項

資料倉儲專題(3) 分布式資料倉儲事實表設計思考

一 前言 最近在設計資料倉儲的資料邏輯模型,考慮到海量資料儲存在分布式資料倉儲中的技術架構模式,需要針對傳統的面相關係型資料倉儲的資料儲存模型進行技術改造。設計出一套真正適合分布式資料倉儲的資料儲存模型。二 事實表設計基礎 事實表記錄發生在現實世界中的操作型事件,其所產生的可度數值。事實表的設計完全...

資料倉儲專題(3) 分布式資料倉儲事實表設計思考

一 前言 最近在設計資料倉儲的資料邏輯模型,考慮到海量資料儲存在分布式資料倉儲中的技術架構模式,需要針對傳統的面相關係型資料倉儲的資料儲存模型進行技術改造。設計出一套真正適合分布式資料倉儲的資料儲存模型。二 事實表設計基礎 事實表記錄發生在現實世界中的操作型事件,其所產生的可度數值。事實表的設計完全...

分布式資料倉儲設計

分布式模式 維度建模新原則 1 以值代鍵 針對鍵值唯一的維表,除非必要,否則不引入維表,如ip位址維表,採用ip作為維表的主鍵,事實表中儲存ip值 2 合理分表 傳統關係型資料倉儲存在多表整合的衝動,如上圖event事實表,各種acount ind,finance ind等,用來擴充套件表的通用性,...