資料倉儲學習筆記一

2021-08-09 23:43:34 字數 3571 閱讀 8732

資料倉儲是乙個面向主題的、整合的、非易失的且隨時間變化的資料集合,用來支援管

理人員的決策。

1 主題:

圖1傳統的操作型系統是圍繞公司的應用進行組織的。對乙個保險公司來說,應用問題可能

是汽車保險、健康保險、人壽保險與意外**保險。公司的主要主題範圍可能是顧客、保險

單、保險費與索賠。

2 整合

圖2

資料倉儲的第二個顯著特點是整合的。在資料倉儲的所有特性之中,這是最重要的,當資料進入資料倉儲時,要採用某種方法來消除應用問題中的許多不一致性。例如,在

圖2 - 2中,考慮關於「性別」的編碼,在資料倉儲中是編碼為m / f還是1 / 0並不重要,重要的是,

無論什麼原始應用問題,無論資料倉儲如何進行編碼,在資料倉儲中應該一致地進行編碼。

如果應用資料編碼為x / y,當其進入資料倉儲時就要進行轉換。對所有的應用設計問題都要考

慮同樣的一致性處理,比如命名習慣、鍵碼結構、屬性度量以及資料特點等。

3 非易失性

圖3

表示了操作型資料正規地是一次訪問和處理乙個記錄。可以對操作型環境中的資料

進行更新。但資料倉儲中的資料呈現出非常不同的特性。資料倉儲的資料通常是一起載入與

訪問的,但在資料倉儲環境中並不進行一般意義上的資料更新。

4 隨時間變化

圖4資料倉儲的最後乙個顯著特性是其隨時間的變化性。如圖2 - 4所示。資料倉儲中的資料隨

時間變化的特性表現在以下幾個方面:

■ 資料倉儲中的資料時間期限要遠遠長於操作型系統中的資料時間期限。操作型系統的

時間期限一般是6 0~9 0天,而資料倉儲中資料的時間期限通常是5~1 0年。

■ 操作型資料庫含有「當前值」的資料,這些資料的準確性在訪問時是有效的,同樣當

前值的資料能被更新。而資料倉儲中的資料僅僅是一系列某一時刻生成的複雜的快照。

■ 操作型資料的鍵碼結構可能包含也可能不包含時間元素,如年、月、日等。而資料倉

庫的鍵碼結構總是包含某時間元素。

資料倉儲的結構

圖5

第1天到第n天的現象

圖6建立資料倉儲不是一蹴而就的。相反,資料倉儲只能一次一步地進行設計和載入資料,

即它是進化性的,而非革命性的。突然建立乙個資料倉儲的費用、需要的資源和對環境的破

壞,都表明資料倉儲的建立要採用有序地反覆和一次一步的方式。

圖2 - 1 0說明乙個建立資料倉儲的典型過程。第1天,通曉本質上進行操作型處理的幾個系

統。第2天,對資料倉儲中第乙個主題領域的最初幾個表載入資料,此時就會產生一定的好奇

心,使用者開始發現資料倉儲和分析處理。

第3天,更多的資料載入資料倉儲,並且隨著資料量增大,將吸引更多的使用者。一旦使用者

發現有較容易載入的整合資料來源,並有在時間維上觀察資料的歷史基礎,這就不僅僅是好奇

心了。大約此時,認真的d s s分析員漸漸地被吸引到資料倉儲中。

第4天,隨著更多的資料載入資料倉儲,一批儲存在操作型環境的資料被適當地放入資料

倉庫中。現在,我們就「發現」資料倉儲是可用來進行分析處理的資訊源。各種各樣的d s s

應用出現了。的確,伴隨著現在存入資料倉儲的大規模資料,此時開始出現如此多的使用者和

如此多的處理請求,以致於一些使用者進入資料倉儲的要求和分析工作被推遲。進入資料倉儲

的競爭成為使用資料倉儲的障礙。

第5天,部門資料庫(資料集市,或o l a p )開始興起,各部門發現通過把資料從資料倉儲

輸入它們自己的部門處理環境,會使它們的處理既便宜又容易。到達部門級的資料吸引著一

些d s s分析員。

第6天,部門系統出現繁忙,得到部門資料比獲得資料倉儲的資料更便宜、更快、更容易。

很快終端使用者就放棄資料倉儲的細節,去進行部門處理。

第n天,這種體系結構得到充分發展。生產系統的原始集合中只剩下操作型處理。資料倉

庫具有豐富的資料,並有一些資料倉儲的直接使用者和許多部門資料庫。因為在部門級上獲得

處理所需要的資料既容易又便宜,所以大部分d s s分析處理都在部門級進行。

當然,從第1天到第n天的進化需要很長的時間,通常需要幾年。並且在從第1天到第n天

的處理過程中,d s s環境在不斷地提高和職能化。

資料庫--粒度

圖7

粒度問題是設計資料倉儲的乙個最重要方面。粒度是指資料倉儲的資料單位中儲存資料的

細化或綜合程度的級別。細化程度越高,粒度級就越小;相反,細化程度越低,粒度級就越大。

資料的粒度一直是乙個設計問題。在早期建立的操作型系統中,粒度是用於訪問授權的。

當詳細的資料被更新時,幾乎總是把它存放在最低粒度級上。但在資料倉儲環境中,對粒度

不作假設。圖2 - 11說明了粒度問題。

在資料倉儲環境中粒度之所以是主要的設計問題,是因為它深深地影響存放在資料倉儲

中的資料量的大小,同時影響資料倉儲所能回答的查詢型別。在資料倉儲中的資料量大小與

查詢的詳細程度之間要作出權衡。

粒度的乙個例子

圖2 - 1 2表示了粒度問題的乙個例子。左邊是乙個低粒度級,每個活動(在這裡是一次**)

被詳細記錄下來,資料的格式如圖所示。到月底每個顧客平均有2 0 0條記錄(全月中每個**

都記錄一次),因而總共需要40 000個位元組。

該圖的右邊是乙個高粒度級。資料代表一位顧客乙個月的綜合資訊,每位顧客乙個月只

有乙個記錄,這樣的記錄大約只需2 0 0個位元組,記錄的格式如圖所示。

顯然,如果資料倉儲的空間很有限的話(資料量總是資料倉儲中的首要問題),用高粒度級

表示資料將比用低粒度級表示資料的效率要高得多。

高粒度級不僅只需要少得多的位元組存放資料,而且只需要較少的索引項。然而資料量大

小和原始空間問題不是僅有的應考慮的問題。為了訪問大量資料,其處理能力的大小同樣也

是應考慮的乙個因素。

所以,在資料倉儲中資料壓縮非常有用。當資料被壓縮後就會大大節省所用的d a s d儲存

空間,節省所需的索引項,以及節省處理資料的處理器資源。

但是,當提高粒度級時,資料壓縮就會出現另乙個問題,圖2 - 1 3表示作出的選擇。

在圖2 - 1 3中,當提高資料粒度級時,資料所能回答查詢的能力就會隨之降低。換句話說,在乙個

很低的粒度級上你實際可以回答任何問題,但在高粒度級上,資料所能處理的問題的數量是有限的。

圖8

資料倉儲學習筆記(一)

決策支援系統的發展 決策支援系統 decision support system 簡稱dss 可以為決策者提供分析問題 建立模型 模擬決策過程和方案的環境,呼叫各種資訊資源和分析工具,幫助決策者提高決策水平和質量,它是管理資訊系統 mis 向更高一級發展而產生的先進資訊管理系統。資料倉儲技術就是為更...

資料倉儲學習筆記三

太上有立德,其次有立功,其次有立言,雖久不廢,此謂不朽。左傳 簡單解釋 二者的區別 維度表的冗餘很大,主要是因為維度一般不大 相對於事實表來說的 而維度表的冗餘可以使事實表節省很多空間。事實表一般都很大,如果以普通方式查詢的話,得到結果一般發的時間都不是我們可以接受的。所以它一般要進行一些特殊處理。...

學習筆記(一)資料倉儲環境

資料倉儲的特點 面向主題的 從面向操作型的系統提取出分析主題,例如 保險公司操作環境是汽車 人壽,而對於資料倉儲構建要從顧客 保險單。這些主題去構建。要提取出各個作業系統中公共的屬性,要將資料倉儲構建成最細粒度,對各個操作環境都可用。整合性 保證資料的一致性,就是把各個系統中的資料採集到一起,相同的...