資料立方體解密

資料立方體和傳統資料庫的差別在於資料立方體即cube把很多原來要用資料庫的group by操作來達到的效果通過其獨有的儲存形式予以加速, 使用者可以方便地下鑽, 切面看到各種聚合的資料的結果。

試想一下，如果乙個cube擁有3個維度，為了計算在各個維度上的聚合，就要進行2^3次計算,如果有10個維度就要進行2^10次聚合計算,隨著維度的增加,計算量也陡增。此外經過一次聚合後，得到的不是乙個值而已，是乙個少了若干維度的子cube，要將所有的cube儲存起來會占用大量的磁碟空間。

所以完全預存所有可能的度量值顯然是不可能的。

巧妙之處就在於利用資料的稀疏性。舉個例子：

一幢樓有10層，每層有3個大間，每個大間有甲乙丙丁4個小隔間，現在把這幢樓當成資料立方體，度量值就是住的人數。

101甲有3人（一樓01室甲間），

103丙有2人，

202乙有4人，

203丁有2人，

302乙有1人，

然後從4樓往上，只有702甲住了2人。

有很多的空的房間就象徵著稀疏。

這時我們會發現如果使用者查詢的4樓以上的人數資料，且未指明其他兩個維度的話，其實只要返回乙個702甲的人數就可以了。或者使用者查詢所有丙室的人數，也只要返回103丙有2人。彷彿103丙這一間小房間卻在特定的聚合條件下覆蓋了一大片區域。如果我們用符號「*」來表示all，那麼103丙覆蓋了：

（*，*，丙）

這樣乙個子cube。

用術語來說（*，*，丙）和（1，*，丙）和（*，3，丙）其實歸根結底就是103丙，它們叫「同基類」。那麼資料立方體在預存聚合值的時候就只要存同基類中的乙個值就可以了，然後通過一定儲存形式指明那些區域是屬於這個同基類的就可以了，大幅減少了儲存空間和process時的io消耗。

具體通過什麼樣的形式來指明同基類可以參考這篇**：

再貼一片關於ssas調優的文章：

資料立方體 解密