資料倉儲工具箱讀書筆記01 基礎

2021-10-08 13:48:05 字數 3518 閱讀 3716

1.4 kimball的dw/bi架構

1.5 其他dw/bi架構

資訊(或者說是資料)一般有兩個目的:

記錄操作(操作型系統)

指定決策(dw/bi系統)

操作性系統一般一次只處理乙個事務(獲取訂單 記錄問題等), 如果要優化方向在於讓其更快的處理事務, 因此不必維護歷史資料, 只需要修改資料來反映最新的狀態即可

dw/bi系統會處理成千上萬的事務(本週新訂單與過去一周進行比較, 並尋找新客戶原因), 如果要優化方向在於讓其高效能完成使用者的查詢, 因此需要維護歷史資料

訪問資訊方便

內容必須易於理解, 不光是讓開發理解, 也要讓業務理解.

支援以各種方式分隔和合併資料, 以進行分析.

訪問資料的bi工具要簡單.

較短時間將查詢結果返回(不滿足後兩點你會被吐槽死)

一致性資料可信(資料清洗一定要確保資料質量)

同名同意(名字一樣則含義一樣)

適應變化

需求會變, 業務會變, 資料更會變. 對這些變化進行調整時不應該影響已有的資料和應用

如果必須去修改dw, 也應該對使用者透明

及時性對時效有一些要求,資料要及時發布出來

安全性資料比較敏感, 必須控制訪問許可權

權威性dw系統最重要的輸出就是基於對資料的分析而產生的決策

業務群體接受

要讓業務群體接受並積極使用它

為什麼維度建模是分析資料的首選技術呢?

什麼是3nf, 使用3nf目的是什麼?

3nf(三正規化)主要的目的是 消除冗餘, 將資料劃分成不同的實體, 每個實體一張表

請比較下維度模型和3nf?

其實維度模型和3nf模型所包含的資訊都是一樣子的, 他們的主要區別就是規範化的程度不一樣

什麼是星型模型, 及olap?

在關聯式資料庫管理系統實現的維度模型成為星型模型, 而在多維資料庫環境實現的維度模型稱為聯機分析處理(olap)

關係型資料庫管理系統 和 多維資料庫系統 是什麼意思?

關係型資料庫是二維表, 多維資料庫可以儲存兩個以上的資料維

事實表儲存什麼內容?

儲存業務過程所產生的度量結果 (銷售過程產生的銷售額)

同一業務過程產生了多個度量, 怎麼儲存?

銷售過程產生了銷售額 銷售數量等多個度量, 他們應當儲存在同乙個維度模型中

業務產生的度量的資料量巨大, 分開儲存好不好?

不行, 應當建立單一的集中式資料倉儲讓多個組織訪問, 來確保他們使用的資料是一致的

請解釋下粒度?

事實表中的一行就對應了業務過程產生的乙個度量. 這一行資料是乙個特定級別的細節資料, 稱為粒度

舉例 : 銷售事實表中的一行代表了什麼呢?

假設小陽同學去商店買了兩瓶酸奶,乙個麵包 付款之後拿到了一張小票…

因為後期可能要以商品為維度進行資料分析,所以儲存結果如下:

日期維度鍵

商品維度鍵

銷售額銷售數量11

10212

31事實表中的事實可分成哪幾類?

可加: 銷售額, 可從所有維度加和

半可加: 餘額, 不能按照時間維度進行加和

不可加: 單價, 所有維度不可加和

數值型別: 儲存的事實是數值, 可進一步劃分 可加 半可加 不可加

文字型別: 理論上可行, 但是一般會把文字放到維度上以減少空間開銷. 除非對事實表的每行文字都市唯一的

事實表的粒度可分成哪幾類?

事務 週期性快照 累計快照

維度表是做什麼的?

用於描述業務過程產生的度量的環境, 一般描述 誰 什麼時間 什麼地點 做什麼 如何做 為什麼要做

維度表儲存什麼內容?

首先宣告維度表中的內容一般用於做 查詢約束 分組 報表標識等. 那麼維度表的內容應該是真是的詞彙, 而不是令人迷惑的縮寫.

上面不是說維度表不要存一些識別符號(操作碼), 而是將它們解碼成真實的詞彙嘛, 那如果我的識別符號有業務含義, 我需要用到它去和後台的操作環境進行互動, 這個怎麼辦?

將識別符號存成一列, 然後加一列對這列識別符號進行友好的文字描述

我的識別符號設計規則是前兩列代表區域, 三四列代表類別, 這樣的該怎麼儲存?

拆分成多列, 方便使用者進行查詢

如何判斷乙個數值資料是事實還是維度?

包含多個值 且 是計算的參與者 -> 事實

具體指的描述 且 是常量 約束 標識的參與者 -> 維度

連續值數字基本上可以認為是事實, 來自於乙個不太大列表的離散數字基本上可以認為是維度

由四部分組成:操作型源系統 etl系統 資料展現 商業智慧型應用

處理業務所產生的事務的系統 (銷售業務會產生很多的事務, 比如生成訂單, 查詢商品庫存等)

獲取是將資料從操作型源系統匯入資料倉儲環境, 意味著讀取並理解源資料並將需要的資料複製到etl系統中

轉換: 資料清洗(消除拼寫錯誤 解析標準格式等) 合併來自不同資料來源的資料等. 反正目的就是將資料標準化不要亂七八糟的. 另外這裡可以記錄元資料來改進資料質量

載入: 將轉換好的資料載入到展現區的維度模型中(這裡為什麼是維度模型, 規範化結構行嗎? 不行, 規範化結構難以滿足可理解性和效能兩個目標)

儲存資料. 支援使用者 報表製作者 或者其他bi用用的查詢. 展現區必須是維度化的(規範化難以滿足簡單性和效能)、原子的(儲存細節資料)、以業務過程為中心的(不能按照個別部門需要的資料構建)、使用匯流排結構(公共一致性維度)的資料倉儲

利用展現區為商業使用者提供分析決策的能力(很顯然, 查詢的效能很重要)

① 高效: 餐廳人滿為患, 我們要盡快把菜做出來, 提前把菜洗好, 或者提前炒好菜不要現炒

② 一致性: 同乙份菜味道要一樣, 我們把調味醬提前放進菜裡, 而不是讓顧客自己放

③ 完整性: 不希望顧客中毒或者串味, 所以素菜工作台和肉類工作台要分開

④ 質量: 菜餚要達到一定的標準才能上桌, 否則重做

資料倉儲ETL工具箱 元資料

由於etl是資料倉儲得核心,時常承擔著管理和儲存資料倉儲大量元資料得職責。在資料倉儲中etl處理程式是元資料最重要得建立者 資料沿襲。資料沿襲追蹤資料從源系統和檔案中得請確位置直到最終被裝載之前。資料血統包括資料庫系統的資料定義和在資料參考古中最終靜止狀態。元資料分為後台元資料和前端元資料,後台元資...

《資料倉儲》讀書筆記 2

讀了資料倉儲第2章,這一章講解的是資料倉儲環境。梳理出來的知識點 1 資料倉儲是面向主題的。資料倉儲的資料只對於特定的領域或客戶是有意義的。2 資料倉儲整合。這是資料倉儲所有特性中最重要的特性。資料倉儲中的資料是從多個資料來源來的。整合的功能之一就是消除不同資料來源對於同一資料的表示差異。3 資料倉...

《資料倉儲》讀書筆記 3

這兩天讀了 資料倉儲 第三章,這一章講解的是設計資料倉儲。將主要的內容梳理如下 1 建造資料倉儲主要包括兩個部分的工作 與操作型系統介面的設計和資料倉儲本身的設計。資料倉儲是在啟發方式下建造的,在這個過程中乙個階段的開發完全依賴於上乙個階段的結構。2 將資料從操作型環境移入資料倉儲環境不是簡單的抽取...