資料倉儲分層架構

2021-10-03 06:31:26 字數 849 閱讀 2314

在一篇部落格看見了有關資料倉儲分層的內容, 概括如下:

複製層(ssa,system-of-records-staging-area)

ssa 直接複製源系統的資料,盡量保持業務資料的原貌;與源系統資料唯一不同的是,ssa 中的資料在源系統資料的基礎上加入了時間戳的資訊,形成了多個版本的歷史資料資訊。

原子層(sor,system-of-record)

sor 是基於模型開發的一套符合 3nf 正規化規則的表結構,它儲存了資料倉儲內最細層次的資料,並按照不同的主題域對資料分類儲存;比如高校資料統計服務平台根據目前部分需求將全校資料在 sor 層中按人事、學生、教學、科研四大主題儲存;sor 是整個資料倉儲的核心和基礎,在設計過程中應具有足夠的靈活性,以能應對新增更多的資料來源、支援更多的分析需求,同時能夠支援進一步的公升級和更新.

3 .彙總層(sma,summary-area)

sma 是 sor和dm(集市層) 的中間過渡,由於 sor 是高度規範化資料,此要完成乙個查詢需要大量的關聯工作,同時dm 中的資料粒度往往要比 sor 高很多,對要生dm 中的彙總資料需要進行大量的彙總工作,此,sma 根據需求把 sor 資料進行適度的反範(例如,設計寬表結構將人員資訊、幹部資訊等多表的資料合併起來)和彙總(例如,一些常用的頭彙總、機構彙總等);從而提高資料倉儲查詢效能。

根據以上資料,介紹下我們所做的資料倉儲的分層。

數倉一(sas+lsf+oracle):

landing 該層表都帶有land,主要是通過sas將檔案載入到該層,沒有對原始檔進行過處理。但是新增了時間戳字段,比如載入檔案的日期和原始檔資料的日期。

staging層表在land表基礎上進行了簡單的處理,一般乙個land表對應乙個stg表。

ods層

資料倉儲架構分層

資料倉儲簡介 有些人不理解資料倉儲,認為資料倉儲就是獲取資料,只要會使用hadoop spark等大資料工具就懂資料倉儲,這樣的認識太片面。如果要從海量資料中總結出乙個報表或者是多個報表,大資料工程師足以 如果在有限的資源動態的資料情況下,向前可歷史追溯,向後對不斷增加的報表實現相容,這就需要一套科...

資料倉儲分層架構設計

大資料資料倉儲是基於hive構建的資料倉儲,分布檔案系統為hdfs,資源管理為yarn,計算引擎主要包括mapreduce tez spark等,分層架構如下 1 資料 層 日誌或者關係型資料庫,並通過flume sqoop kettle等etl工具匯入到hdfs,並對映到hive的資料倉儲表中。2...

資料倉儲分層架構設計

這應該是資料倉儲同學在設計資料分層時首先要被挑戰的問題,類似的問題可能會有很多,比如說 為什麼要做資料倉儲?為什麼要做元資料管理?為什麼要做資料質量管理?當然,這裡我們只聊一下為什麼要做設計資料分層。作為一名資料的規劃者,我們肯定希望自己的資料能夠有秩序地流轉,資料的整個生命週期能夠清晰明確被設計者...