資料倉儲設計要點

2021-12-30 10:48:32 字數 472 閱讀 1700

資料倉儲層級一般可分為:增量或全量資料映象層,最新基礎資料層,清單資料中間層,彙總層,報表層。

設計的時候要注意一下:

1.彙總層表的字段,不應該根據報表的需要來建立,應該根據不同維度和不同粒度的資料和不同時間點的資料進行區分。

2.表設計的時候:(1).為什麼需要這樣設計,(2).作用是什麼,(3).在整個資料倉儲中是模組的資料,什麼樣的優先順序,**庫是那個。這張表為什麼不能夠跟同樣維度的表合併。(如果是因為業務需要看不同跑資料的時間點,也是可以的。)

3.清單資料中間層,這個事在同乙個主題中可重複使用,加工得到不同粒度和維度的彙總層表的。

4.要知道什麼是基礎指標,什麼是可加和指標和不可加和指標。

5.開發的時候主要要有資料測試的方法。驗證指標需要在同乙份源頭的資料寫乙個口徑sql得出指標和,最終的rpt表的指標進行比較。

6.開發主要進行,維度補充,去重,工作日處理,維度關聯,agg合併,到處rpt等得到rpt層。

資料倉儲設計

資料倉儲簡介 有些人不理解資料倉儲,認為資料倉儲就是獲取資料,只要會使用hadoop spark等大資料工具就懂資料倉儲,這樣的認識太片面。如果要從海量資料中總結出乙個報表或者是多個報表,大資料工程師足以 如果在有限的資源動態的資料情況下,向前可歷史追溯,向後對不斷增加的報表實現相容,這就需要一套科...

資料倉儲(六) 資料倉儲的概念設計

在資料集市設計中可以使用3種基本的系統方法 資料驅動的方法 需求驅動的方法和混合方法。它們的區別在於源資料庫分析和終端使用者需求分析階段所佔的比重。方法的選擇將極大地影響概念設計的方式。資料驅動方法包括 基於實體 關係模式的設計 基於關係模式的設計 基於xml模式的設計。概念型實體 關係模式比關係型...

資料倉儲分層設計

最近在做資料倉儲相關的工作,專案快要收尾了,總結下資料倉儲資料分層設計的一些心得 雖然以前做過很多olap相關的工作,就像流量統計分析這種,這種型別分析,我們往往就弄一張大寬表和幾張維度表 所有的統計分析都基於這張大寬表與維度表,在這種簡單的應用場景,這種設計倒沒有什麼問題,簡單明瞭 但是如果業務場...