資料倉儲(六) 資料倉儲的概念設計

2021-06-14 06:28:31 字數 1453 閱讀 8337

在資料集市設計中可以使用3種基本的系統方法:資料驅動的方法、需求驅動的方法和混合方法。它們的區別在於源資料庫分析和終端使用者需求分析階段所佔的比重。方法的選擇將極大地影響概念設計的方式。

資料驅動方法包括:基於實體-關係模式的設計、基於關係模式的設計、基於xml模式的設計。概念型實體-關係模式比關係型邏輯模式更具表達力。因此通常認為前者是更好的設計源。但實際情況是公司經常無法提供精確完整的實體-關係模式(丟失、文件不完整或者其他原因)。那麼就只能根據資料庫的邏輯模式來做。另一方面,web資料大部分是xml格式的,基於xml模式的設計可以從xml源的模式派生乙個資料集市概念模式。

根據規範化er圖,轉換為一組維度模型的第一步是,將er圖分成一些分散的業務處理過程,然後分別單獨建模。第二步是選出er圖中那些含有數字型與可加性非關鍵字事實的多對多關係,並將它們標記為事實表。最後一步是,將剩下的所有表復合成具有直接連線到事實表的單連關鍵字的平面表,這些表就成為維度表。

資料集市可看作分散後的某個業務處理過程,在資料集市的符合維度事實模型(dfm)的概念設計中使用的基於實體-關係模式的技術包含以下步驟:

(1)定義事實。

(2)對於每個事實:

a. 建立乙個屬性樹。

b. 修剪和移植屬性樹。

c. 定義維度。

d. 定義度量。

e. 建立事實模式。

首先從資料來源模式中選擇相關事實。然後以半自動模式建立屬性樹。這是乙個過渡結構,可用於確定事實模式的邊界以清除不相關屬性及修改鏈結到這些不相關屬性的依賴關係(對應步驟(2).b)。屬性樹鏈結了資料集市和資料來源模式。這個鏈結是資料準備過程的關鍵。之後將屬性樹轉換為事實模式(步驟(2).e)就相對簡單了。其中,步驟a基於一種演算法;步驟cde基於屬性的目標特性;步驟1和b需要深入理解公司的商業模型。

事實通常對應於公司中動態發生的事件。在實體-關係模式中,事實可能對應著乙個實體或者e1,e2,...,en實體間的n元關係r。對於後者,為簡便起見,可將r轉換為乙個實體(實體化過程)。為此,新增乙個新實體f,並使用f和ei間的二元關係(ri)替換r的每個分支。若使用min(e, a)和max(e, a)分別表示最小基數等級最大基數等級(基數等級是指實體e在相應等級上參與關係a,通常min(e, a)∈,max(e, a)∈;簡單來說,基數實際上就是資料庫設計中的一對一關係、一對多關係、多對一關係等),則:min(f, ri) = max(f, ri) = 1, min(ei, ri) = min(ei, r), max(ei, ri) = max(ei, r)。

注意:有時不同的實體可能是表達個體事實的候選。建議選作事實的實體應該是構建包含盡可能多的屬性的屬性樹的實體。

屬性樹

資料倉儲 資料倉儲部署

1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...

資料倉儲的概念

隨著市場競爭的加劇和資訊社會需求的發展,從大量資料中提取 檢索 查詢等 制定市場策略的資訊就顯得越來越重要了。這種需求既要求聯機服務,又涉及大量用 於決策的資料,而傳統的資料庫系統已無法滿足這種需求。其具體體現在三個方面 歷史資料量很大。輔助決策資訊涉及許多部門的資料,而不同系統的資料難以整合。由於...

資料倉儲的概念

資料倉儲現在大家說的很多,但有乙個基本清晰的認識是比較好的。我覺得 資料倉儲 一本書給的概念挺好,寫出來做個筆記。資料倉儲是乙個面向主題的 整合的 非易失的 隨時間變化的用來支援管理人員角色的資料集合。這裡在加上一點資料是具有粒度化的。第一點 面向主題 面向主題其實就是我們要按照乙個目的去儲存資料,...