《資料倉儲》讀書筆記 3

2021-08-30 06:09:34 字數 3828 閱讀 6335

這兩天讀了《資料倉儲》第三章,這一章講解的是設計資料倉儲。

將主要的內容梳理如下:

1、建造資料倉儲主要包括兩個部分的工作---與操作型系統介面的設計和資料倉儲本身的設計。資料倉儲是在啟發方式下建造的,在這個過程中乙個階段的開發完全依賴於上乙個階段的結構。

2、將資料從操作型環境移入資料倉儲環境不是簡單的抽取。

3、從多處抽取資料並將資料整合到乙個統一的檢視中是乙個十分複雜的問題。

4、資料缺乏整合的乙個簡單例子就是資料編碼不一致,例如不同系統對性別採用不同的編碼。

5、字段語義的轉換時資料整合的另乙個問題。例如同一欄位在四個應用中有四個不同觀點名字。為了轉換資料使其正確地進入倉庫,就必須建立各個不同源字段到資料倉儲欄位的對映。

6、另乙個問題是原有資料在不同的dbms下可能以多種不同格式儲存。

7、對於資料體系結構設計者而言,當操作型環境發生變化時,不斷地將變化的資料裝載到倉庫中是最為困難的。於是掃瞄現有系統檔案成了資料倉儲體系結構設計者要面對的主要問題。

8、資料倉儲重新整理時為了限制掃瞄的操作型資料庫。

通常採用五種技術:

第一種技術史掃瞄在操作型環境中那些被打上時間戳的資料。

第二種控制掃瞄資料庫的技術是掃瞄增量檔案。

第三種技術是對作為食物處理副產品產生 的日誌檔案或審計檔案進行掃瞄。

第四種是修改應用程式**。這並不常用,因為很多應用程式的**陳舊且不易修改。

第五種是將乙個前映像檔案和後乙個映像檔案進行比較。這種使用方法,抽取時就建立乙個資料庫的快照。另一輪抽取時,建立另乙個快照。然後將這兩個快照順序比較,以確定已發生的業務活動。這種方法很麻煩、複雜還需要各種各樣的資源。所以該方法不過是沒有辦法時才採用的辦法。

9、當資料從現有操作型環境傳送到資料倉儲時,要考慮的另乙個問題是需要對資料倉儲中的已有的及腰傳入資料的規模進行管理。資料在抽取盒進入資料倉儲時都要進行壓縮,否則資料倉儲中的資料量就會失控。

10、如果沒有認真地管理和壓縮大量的資料,那麼僅僅是聚集在資料倉儲中的全域性量就會使得資料倉儲的目標難以實現。

11、資料建模分為三個層次:高層建模(稱為實體關係圖),中間層建模(稱為資料項集)、底層建模

12、屋裡資料模型是從中間層資料建模建立而來的,建立窩裡模型通過擴充套件中間層模型,使模型中包含有關鍵字和物理特徵。這時,屋裡模型看上去像一系列表這些表有時被稱為關係表。

13、將關係表作用於物理資料庫還有最後乙個步驟就是進行效能特徵的優化係數。在資料倉儲的情況下,設計中的第一步就是確定資料的粒度和分割槽。

14、資料模型輸出是表,但表應該盡可能的合併以減少io消耗。

15、除了合併表,另一種非常有用的技術是建立資料陣列。

16另乙個與資料倉儲環境特別相關的物理設計是有意引入冗餘資料。

17、資料倉儲設計最後乙個設計技術就是參照完整性的管理(個人感覺就是去掉動態連線資料)

18、元資料是資料倉儲環境的乙個重要組成部分。元資料就是資料的資料。元素語句與指向資料倉儲內容的索引相似處於資料倉儲的上層,並且記錄資料倉儲中物件的位置。

19、資料週期--時間間隔。資料週期指從操作型環境中的資料發生改變起,到這個變化反映到資料倉儲中所用的時間。時間間隔的目的是減小開銷節約成本。

20、在有操作型環境直接訪問資料倉儲的過程中(事實上確實有這種不正常的訪問。)有一些嚴格的、不能妥協的限制:

2)對資料的請求必須是最小量的。資料的傳輸時以位元組計的,而不是以mb或gb計。

3)從資料倉儲缺取得的、準備傳輸到操作型環境的資料必須不做(或僅需最小量的)格式化,。

21、多維方法只適用於建立資料集市,並不適用於資料倉儲。因為:資料集市很大程度上時根據需求來形成的,這與資料倉儲不同。

為了建立乙個資料集市,首先要對喜愛資料集市上進行的處理的需求有很多了解。一旦這些需求已知,可以將資料集市建成乙個最有的星型連線結構。

但資料倉儲與此有著本質不同,這是因為資料倉儲是為乙個非常大的群體服務的,正因為如此,資料倉儲對於任何乙個需求集合而言,效能和便捷性都不是最優的。資料倉儲是根據企業資訊需求而非部門資訊需求建立的。因此,對於資料倉儲建立星形連線將是乙個錯誤,因為最終結果是資料倉儲在犧牲所有其他群裡利益的代價中對乙個群體實現了最優。

22、多維方法對於資料集市的資料庫設計的吸引力起始於資料模型。所有使用資料模型作為設計基礎的實踐都有一些缺點。(如果從資料模型的角度來看,所有的實體之間關係是對等的。僅僅從資料模型的角度著手設計資料倉儲會產生一種「平面」效應。實際上,由於種種原因,資料集市的實體絕不是相互對等的。一些實體需要有自身的專門處理。)

23、資料倉儲與資料集市的乙個問題是資料怎樣從資料倉儲到達資料集市。資料倉儲中的資料是粒度化的,資料集市中的資料時緊湊和綜合的。

24、必須對資料倉儲中的資料進行選擇、訪問、重組才能適合資料集市的需求。

那麼資料集市是資料倉儲的替代品嘛??

1)資料集市中的資料結構是根據部門的特殊需求而建立的。

2)任何乙個給定的資料集市中的資料結構都與其他資料集市不同。

3)因為每乙個資料集市都有乙個不同的資料結構,試圖將任何乙個資料集市轉變為資料倉儲都不具意義。

4)通常資料集市資料結構,貫穿整個企業,不能重用,沒有靈活性,不能作為調和矛盾的基礎,也不能為新出現的位置需求集合提供便利。然而,資料倉儲中規範化粒度卻正好滿足所有這些要求。

25、資料倉儲不是由處理需求建立的,而是根據企業需求而設計的。企業需求集中於整個企業,而不只是直接的應用程式。企業需求綜合地看待對於處理、資料和基礎框架的所有需求。

最後是本章小結:

資料倉儲設計始於資料模型。企業資料模型用於操作型環境設計,而修改後的企業資料模型用於資料倉儲。資料倉儲已一種反覆進行的方式建造。無法事先預知資料倉儲的需求。

資料倉儲開發者主要關心的問題是對大量資料的管理。為了達到這個目標,資料粒度與分割槽稱為了資料庫設計的兩個最重要的問題。然而,這裡仍然存在很多其他的物理設計問題,其中大部分圍繞資料訪問的效率。

當資料從傳統操作型環境相資料倉儲中傳送時,資料倉儲就開始裝載資料。資料從傳統操作型環境相資料倉儲傳送要經過乙個非常複雜的轉換、重新格式化和整合的過程。當資料進入資料倉儲是經常存在乙個時間的轉變。一些情況下,操作型資料沒有加時間戳、而另一些情況下,這需要對操作型資料的粒度級別進行調整。

資料模型有三個層次---高層、中層、低層。資料模型是能夠採用反覆方式建造資料倉儲的關鍵。高層模型中的實體與企業的主要主體域有關。低層模型與資料倉儲的物理資料庫設計有關。

在最底層次的資料庫設計中,如何整個機構對資料都有統一的觀察方式,那麼可以進行輕度反響規範化處理。資料輕度反向規範處理的一些技術包括建立陣列、明智地建立資料冗餘以及建立創造性索引。

資料倉儲記錄的基本結構包括時間戳、關鍵字、直接資料和二級資料。所有資料倉儲資料庫設計都遵循這種簡單模式。

參照表應當至於資料倉儲中,並於其他資料一樣根據時間變化進行管理。對包含在資料倉儲的參照資料設計有多種方法。

資料以一種稱為「時間間隔」的方式裝載進入資料倉儲。這意味著操作型環境一有活動發生,資料不是馬上進入資料倉儲。相反,操作型環境新更新的資料可以再操作型環境中提留打24小時,然後才轉移到資料倉儲。

資料在從操作型環境相資料倉儲環境的傳送過程中所經歷的轉換時非常複雜的。這其中有dbms的變化、作業系統的變化、硬體體系結構的變化、語義的邊和和編碼變化等等。在資料從操作型環境相資料倉儲環境的傳送中腰考慮到許多種問題。

資料倉儲中記錄的建立時由操作型環境中發生的活動或事件觸發的。一些情況下,發生了如銷售這樣的事件;另一些情況下,這是用於標記規律性的時間推移時間,如乙個月的結束、乙個星期的結束。

概要記錄是由許多不同的歷史活動組成的符合記錄。概要記錄是資料的符合表示。

星形連線時一種經常被錯誤地用於資料倉儲環境的資料庫設計技術。在星形連線多維方法中,資料庫設計是基於乙個主體域中資料的出現次數和資料的訪問方式進行的。星形連線設計適用於資料集市領域,而不適用於資料倉儲領域。使用星形連線來建造資料倉儲是一種錯誤,因為這將使建立起來的資料倉儲對於一部分用於來說是最優的,而無法為所有其他使用者帶來最優的結果。

《資料倉儲》讀書筆記 2

讀了資料倉儲第2章,這一章講解的是資料倉儲環境。梳理出來的知識點 1 資料倉儲是面向主題的。資料倉儲的資料只對於特定的領域或客戶是有意義的。2 資料倉儲整合。這是資料倉儲所有特性中最重要的特性。資料倉儲中的資料是從多個資料來源來的。整合的功能之一就是消除不同資料來源對於同一資料的表示差異。3 資料倉...

《資料倉儲》讀書筆記 4

今天開始讀資料倉儲的第四章,這一章講解的是資料倉儲中的粒度。下面是本章的小結 為體系結構化環境選擇乙個適當的粒度級別是成功的關鍵。選擇粒度級別的一般方法是利用常識。首先建立資料倉儲的一小部分,並讓使用者訪問這些資料。然後仔細聆聽使用者的意見,根據他們的反饋意見對粒度級別做適當的調整。最壞的想法是想要...

資料倉儲 DW BI架構對比 讀書筆記二

kimball 分工明確,資源占用更加合理,呼叫鏈路少,整個dw bi系統更加穩定 高效 有保障。etl系統高度關注資料質量 完整性 一致性。輸入資料在進入時要檢查其質量。一致的獲取增值度量和屬性的業務規則由etl系統中的有技能的專業人員開發,這樣會給客戶發布更好的 保持一致性的產品。展現區根據客戶...