資料立方cube 資料立方

2021-09-06 07:15:05 字數 1463 閱讀 4995

一、資料立方體的基本概念

資料立方體是多維資料庫的基本結構,並作為在多維資料庫上定義的所有操作符的輸入輸出基本單位。將它定義為乙個四元組,這四個元件分別表示資料立方體的特徵:

1. n 個維的集合d=,其中每個di 為從維域中抽取的維名。

2. k 個度量的集合m=,其中每個mi 為從度量域中抽取的度量名。

3. 維名集合與度量名集合是不相交的,即d∩m=。

4. t 個屬性的集合a=,其中每個ai 為從維域中抽取的屬性名。

5. 一對多對映f:d→a,即每個維存在乙個對應的屬性集合。與不同維對應的屬性集互不相交,即對所有i,j,i不等於j,f(di)∩f(dj)= 空。

在典型的olap 應用中,存在乙個中心關係或資料集合,稱作事實表。事實表代表感興趣的事件或物件。事實表通常有幾個表示維的屬性和乙個或多個度量屬性,這些度量屬性一般是使用者想要查詢到的一些值。下面給出例子來說明資料立方體的定義。表2.1 是乙個資料庫中表示檔案元資料的基本關係表files,owner、type、etime、size 分別表示檔案的所有者、型別、建立時間、大小,單位kb。

files 關係:files(owner,type,etime,size)是個事實表。維owner、type、etime用來定義分類,size 是度量屬性,它是向這個資料庫所提出的聚集查詢所需要的,用它來進行一定的分析。

現在用與基本關係表files 相對應的元資料立方體來表示儲存系統中檔案元資料的多維資料庫。元資料立方體具有如下的特徵:

(1) 使用者關心是的檔案大小這個度量,對於元資料立方體來說,m=。

(2) 使用者習慣於用三維來分析檔案,即檔案所有者、型別、建立時間,也就是說使用者經常會提出這樣的問題,「使用者o1 在上週建立的檔案的總大小是多少?」(用檔案所有者和建立時間維詢問),或「在一定時間內,使用者o2 所建立的文字檔案的總大小是多少?」(用全部三個維詢問)。於是對元資料立方體來說,d=。

(3)建立時間維是用屬性日、月和年來描述的;檔案所有者維是用john、xiaoguo、yy 來描述的;檔案型別維是用doc、exe、txt 等來描述的。於是,對元資料立方體而言,a=。

(4)在前面解釋的每乙個維都用特定的屬性來描述,對元資料立方體而言,對映f 為:

f(檔案所有者) =

f(檔案型別) =

f(建立時間) =

可以注意到上面的三個屬性集合是互不相交的,因此元資料立方體滿足上述定義,如圖所示:

二、資料立方體的計算

實際上,決策者或管理者可能對許多方體的單元不太感興趣或不感興趣。例如,「某個資料夾下檔案的總大小是多少?」這樣的話檔案小於100kb 的就可以不予考慮,這樣可以大大減少計算時間,節省空間,但又不影響分析和做出決策。

資料立方體

總體介紹 首先模擬乙個資料分析場景,某企業積累了如下 所示的銷售資料 中每一行表示某個時間段內某種商品在某個地區的銷售情況。很明顯,這些資料涉及到了時間 地區 產品三個業務角度。在對這樣的資料進行分析時,不同的角色都會基於自己所感興趣的業務角度提出問題 銷售經理關心各個地區的銷售情況,希望找出銷售增...

資料立方體 解密

資料立方體和傳統資料庫的差別在於資料立方體即cube把很多原來要用資料庫的group by操作來達到的效果通過其獨有的儲存形式予以加速,使用者可以方便地下鑽,切面 看到各種聚合的資料的結果。試想一下,如果乙個cube擁有3個維度,為了計算在各個維度上的聚合,就要進行2 3次計算,如果有10個維度就要...

資料立方體技術

1.資料立方體的概念和計算。資料立方體 資料立方體只是多維模型的一種形象的說法,它只有三維,但多維資料模型不僅限於三維,它可以是n維的。之所以這麼叫是為了讓使用者更容易想象,方便解釋和說明,同時也為了和傳統的關聯式資料庫中的二維表進行區分。完全物化是指計算資料立方體格中的所有方體 部分物化是指選擇性...