學習隨記1 資料倉儲零散

2021-09-29 11:09:12 字數 761 閱讀 4615

標準數倉的分層

ods——歷史儲存層(複製層)

pdw——資料倉儲層(原子層)

mid——資料集市層

數倉標準上可以分成4層。但這種劃分和命名不是唯一的,一般數倉都是四層,但不同公司有不同的叫法,比如臨時層也叫複製層,而京東叫bdm,阿里巴巴叫資料準備層。有些系統裡也會在ods層前加一層sd層(源資料層),來指代資料的**,sd層儲存的資料一般具有多**、多型別特徵,可能使用多種資料庫,甚至是非結構化資料,是資料倉儲中資料最複雜的一層,需要工程師對多種資料庫多種資料型別都有一定了解。

儘管叫法不同,但功能大致上都是一樣的。實際操作時會根據具體的專案的不同對其進行改造。

為什麼要對資料倉儲分層?

用空間換時間,通過大量的預處理來提公升應用系統的使用者體驗(效率),因此資料倉儲會存在大量亢餘的資料;不分層的話,如果源業務系統的業務規則發生變化將會影響整個資料清洗過程,工作量巨大。

通過資料分層管理可以簡化資料清洗的過程,因為把原來一步的工作分到了多個步驟去完成,相當於把乙個複雜的工作的拆分成了多個簡單的工作,把乙個大黑盒變成了乙個個小白盒,每一層的處理邏輯都相對簡單和容易理解,這樣我們比較容易保證每個步驟的正確性,當資料發生錯誤的時候,往往我們只需要區域性調整某個步驟即可。

數倉應該是目前大資料平台的乙個最重要的主流應用,目前的大資料平台不管是從哪個角度來說,都離不開hive,我一直在搭建平台,所以對這個感觸很深,目前較為主流的批處理體系還是hadoop,流處理還是spark,而搭建平台時,hadoop這裡更多的還是側重於hive方面的使用。

參考自參考自

PowerDesigner學習之零散筆記

本篇文章不定時更新,主要記錄使用powerdesigner時學到的新操作方法 1.檢視 增加資源倉庫使用者和刪除 repository adminitration user 2.防止在模型中修改列 cplumns 中的name,code也會跟著變 tool general options dialo...

Python學習零散雜記(2017 10 27)

01.函式 int 將數字的字串表示轉換為數值表示。age int age 02.如果乙個數可被另乙個數整除,餘數就為0,因此求模運算子將返回0。你可利用這一點來判斷乙個數是奇數還是偶數.03.如果你使用的是python 2.7,請使用raw input 而不是input 來獲取輸入。04.使用br...

Python學習零散雜記(2017 11 29)

01.變數分大小寫 02.del 列表應從後往前。03.類中的函式稱為方法 你前面學到的有關函式的一切都適用於方法。個人理解,類中的函式在例項裡是方法,比如my dog.sit 04.方法 init 定義成了包含三個形參 self name 和age 在這個方法的定義中,形參self 必不可少,還必...