學習隨記1 資料倉儲零散

標準數倉的分層

ods——歷史儲存層（複製層）

pdw——資料倉儲層（原子層）

mid——資料集市層

數倉標準上可以分成4層。但這種劃分和命名不是唯一的，一般數倉都是四層，但不同公司有不同的叫法，比如臨時層也叫複製層，而京東叫bdm，阿里巴巴叫資料準備層。有些系統裡也會在ods層前加一層sd層（源資料層），來指代資料的**，sd層儲存的資料一般具有多**、多型別特徵，可能使用多種資料庫，甚至是非結構化資料，是資料倉儲中資料最複雜的一層，需要工程師對多種資料庫多種資料型別都有一定了解。

儘管叫法不同，但功能大致上都是一樣的。實際操作時會根據具體的專案的不同對其進行改造。

為什麼要對資料倉儲分層？

用空間換時間，通過大量的預處理來提公升應用系統的使用者體驗（效率），因此資料倉儲會存在大量亢餘的資料；不分層的話，如果源業務系統的業務規則發生變化將會影響整個資料清洗過程，工作量巨大。

通過資料分層管理可以簡化資料清洗的過程，因為把原來一步的工作分到了多個步驟去完成，相當於把乙個複雜的工作的拆分成了多個簡單的工作，把乙個大黑盒變成了乙個個小白盒，每一層的處理邏輯都相對簡單和容易理解，這樣我們比較容易保證每個步驟的正確性，當資料發生錯誤的時候，往往我們只需要區域性調整某個步驟即可。

數倉應該是目前大資料平台的乙個最重要的主流應用，目前的大資料平台不管是從哪個角度來說，都離不開hive，我一直在搭建平台，所以對這個感觸很深，目前較為主流的批處理體系還是hadoop，流處理還是spark，而搭建平台時，hadoop這裡更多的還是側重於hive方面的使用。

參考自參考自

學習隨記1 資料倉儲零散

PowerDesigner學習之零散筆記

Python學習零散雜記（2017 10 27）

Python學習零散雜記（2017 11 29）

學習隨記1 資料倉儲零散

PowerDesigner學習之零散筆記

Python學習零散雜記（2017 10 27）

Python學習零散雜記（2017 11 29）

相關推薦