資料倉儲專題（3）分布式資料倉儲事實表設計思考

一、前言

最近在設計資料倉儲的資料邏輯模型，考慮到海量資料儲存在分布式資料倉儲中的技術架構模式，需要針對傳統的面相關係型資料倉儲的資料儲存模型進行技術改造。設計出一套真正適合分布式資料倉儲的資料儲存模型。

二、事實表設計基礎

事實表記錄發生在現實世界中的操作型事件，其所產生的可度數值。事實表的設計完全依賴於物理活動，不受可能產生的最終報表的影響。事實表中，除數字度量外，事實表總是包含外來鍵，用於關聯與之相關的維度，也可以包含退化的維度鍵和日期/時間戳。

三、傳統模式

以fs-ldm資料儲存模型event主題域資料儲存模型設計為例，其事件主題域資料邏輯模型結構如下圖所示：

傳統模式的主要問題如下：如果資料量很小的情況下，執行多表關聯，沒有問題，但是當在分布式資料倉儲，單錶儲存海量資料的情況下，很明顯模式將面臨挑戰。

三、分布式模式-維度建模新原則

（2）合理分表：傳統關係型資料倉儲存在多表整合的衝動，如上圖event事實表，各種acount ind，finance ind等，用來擴充套件表的通用性，試圖把所有的資料都儲存到一張表中。分布式資料倉儲的設計，恰恰相反，因為單錶資料規模的問題，如果要滿足分析和處理的效能，合理的按照業務進行資料的分表儲存。如財務相關事件、賬戶相關事件，單獨成表。更有利於資料的計算和分析。　

四、分布式維度模型例項

序號字段英文

字段中文

字段解釋

字段對映

字段加工邏輯

指標字段

1event_id

事件id

記錄標識標識2

tm時間

時間戳維度

3domain

域維度-值4ip

ip位址

維度-值5os

作業系統

維度-值

6user_id

使用者id

維度-fk

7date

日期日期（新增）

維度-值

8from

**訪問**系統

維度-值

五、未完待續

資料倉儲專題（3）分布式資料倉儲事實表設計思考

資料倉儲專題（3）分布式資料倉儲事實表設計思考

07分布式資料倉儲 HIVE 函式

分布式資料倉儲Hive

資料倉儲專題（3） 分布式資料倉儲事實表設計思考

資料倉儲專題（3） 分布式資料倉儲事實表設計思考

07分布式資料倉儲 HIVE 函式

分布式資料倉儲Hive

相關推薦

資料倉儲專題（3）分布式資料倉儲事實表設計思考

資料倉儲專題（3）分布式資料倉儲事實表設計思考