數倉分層概念

2021-10-10 19:49:33 字數 846 閱讀 8857

把複雜問題簡單化

將乙個複雜的任務分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。

清晰資料結構

每乙個資料分層都有它的作用域,這樣我們在使用表的時候能更方便地定位和理解。

便於維護資料的準確性,當資料出現問題之後,可以不用修復所有的資料,只需要從有問題的步驟開始修復。.

減少重複開發

規範資料分層,通過的中間層資料,能夠減少極大的重複計算,增加一次計算結果的復用性。

隔離原始資料

不論是資料的異常還是資料的敏感性,使真實資料與統計資料解耦開。.

ods層(原始資料層)

原始資料層,存放原始資料,直接載入原始日誌、資料,資料保持原貌不做處理。

dwd層(明細資料層)

結構和粒度與ods層保持一致,對ods層資料進行清洗(去除空值,髒資料,超過極限範圍的資料),也有公司叫dwi。

資料集市(date market),早在資料倉儲誕生之初,一同並存的就有資料集市的概念。

現在市面上的公司和書籍都對資料集市有不同的概念。

狹義上來講資料集市,可以理解為資料倉儲中為使用者提供資料支撐的應用層,比如咱們前文說的ads層。

廣義上,資料集市,所有以主題劃分的資料倉儲中可供查閱的都可以成為資料集市,包括dwd,dws,ads層,甚至包括從hadoop中同步到rds的資料都可以成為資料集市。

比如訂單主題,我可以提供使用者,從明細,聚合統計,比率分析等全部資料,提供給某個部門查詢。那麼除了訂單還有使用者、商品、**商等等主題分別可以供不同的人員部門使用,這都可以稱之為資料集市。

數倉分層設計

介紹資料分層的作用 提出一種通用的資料分層設計,以及分層設計的原則 舉出具體的例子說明 提出可落地的實踐意見 0x01 資料分層?為什麼要設計資料分層?這應該是資料倉儲同學在設計資料分層時首先要被挑戰的問題,類似的問題可能會有很多,比如說 為什麼要做資料倉儲?為什麼要做元資料管理?為什麼要做資料質量...

數倉分層總結

數倉分層 ods層 1 保持教據原貌不做任何修改,備份 2 建立分割槽表,防止後續的全表掃瞄 3 採用lzo壓縮,並建立索引 切片 4 建立外部表 多人共用 內部表 自己使用的臨時表 dwd層 1 數倉維度建模 星型模型 維度退化 商品表 品類表 spu表 分類 二級分類 一級分類 商品表 省份 地...

數倉的分層

一 數倉為什麼要分層?1 分層解耦,可以讓開發思路更加清晰,複雜問題簡單化 出錯時,可以精確定位資料 2 節省重複開發 3 脫敏 二 數倉的分層 以5層數倉為例 ods層 原始資料層,原始資料原封不動的直接匯入!dwd層 基於ods層,將原始資料進行清洗,篩選後的資料,把其中的明細開啟 例如 啟動日...