資料倉儲之資料粒度

2021-09-17 20:04:49 字數 2988 閱讀 3838

粒度的定義

確定資料倉儲中資料的恰當粒度是資料倉儲開發者需要面對的乙個最重要的設計問題。資料粒度主要針對指標資料的計算範圍,如人口這個資料項在統計部門是以街區範圍還是乙個社群為範圍統計的。人口資料細化程度越高,粒度級就越小;相反,細化程度越低,粒度級就越大。粒度是資料倉儲主要設計問題,因為它極大地影響存放在資料倉儲中的資料量的大小,同時影響資料倉儲所能回答的查詢型別。在設計資料倉儲的時候權衡資料量大小和查詢型別得出合理的粒度大小。下面我們通過規劃設計和建設兩個階段來講解資料倉儲粒度的確定。

1.規劃階段

「規劃」——對未來整體性、長期性、基本型問題的思考和考量,設計未來整套行動的方案。在規劃階段過程中首先粗略估算資料量,估算的目的是掌握資料倉儲中資料量的乙個範圍。第二步**未來資料集市中應用需要的粒度,資料倉儲儲存資料集市使用的最小粒度。

1.1.建立良好的迴圈反饋機制是很重要的。

首先就要建立完善的迴圈反饋機制。資料倉儲是面對模糊需求開始建立的,粒度不可能一次就能規劃好,先導入少量資料,建立一部分應用提交給使用者使用,並聆聽使用者使用意見,根據使用者的使用意見調整粒度的大小。

1.2.對儲存資料進行粗略估算對設計體系結構的人員來說非常有用。

粗略估算資料倉儲的資料量,可跟好的規劃資料倉儲架構。如果資料只有10 000行,那麼資料倉儲採用粒度級越小的資料儲存,資料倉儲中儲存所有明細資料。如果明細資料有10 000 000行,進入資料倉儲的資料就需要進行初步彙總。如果有100億行,資料倉儲不但需要有乙個高粒度級,還可能將大部分資料移到溢位儲存器上去。

估算方法如下:

資料量估算方法

注意:對資料倉儲大小的估算**幾乎總是偏低,而且,資料倉儲的增長速率一般比**的要快。

1.3.**資料集市中可能使用的資料粒度是很必要的。為了合適地填充所有的資料集市,資料倉儲中的資料必須在乙個所有資料集市所需要的最低粒度水平上。

規劃階段的成果是資料倉儲建設的重要依據內容。規劃階段對組織架構,資料量大小和後期應用的摸底,可以制定方案,並對可能的結果有預先的認知,對可能存在的問題設計上進行避免。

2.建設階段

2.1.根據估算的空間結果,在體系架構設計上可以根據資料量大小進行儲存裝置選擇。需要多少直接訪問儲存裝置,是否需採用雙重粒度設計。

估算是建設的輸入

2.2.設計溢位資料的管理。溢位資料是指資料倉儲將不經常被訪問的過時的資料轉移到儲存量更大的訪問速度慢的儲存器上的資料。管理溢位資料可以方便索引定位歷史資料並可以快速取出該資料。

跨介質儲存管理器和資料活動監控器可以對溢位資料進行有效的管理。磁碟儲存器和大容量低速儲存器之間的資料移動是通過一種稱為「跨介質儲存管理器(cmsm)」的軟體來控制的。資料活動監控器,用來確定哪些資料正在被訪問,哪些沒被訪問。資料活動監控器能提供資料儲存的位置資訊。

跨介質儲存管理器與資料活動監控器

2.3.實施資料倉儲過程中粒度的確定是乙個往復迴圈的過程。利用規劃階段建立的反饋迴圈方法,不斷的從分析員獲得反饋,不斷的優化資料倉儲。

迴圈往復的反饋機制

第一次的設計過程中,如果有50%是正確的,那麼整個設計就是成功的。

從圖可以看出成功建立資料倉儲離不開分析人員的通力協作。建設者要不斷的聆聽分析員的意見。分析人員在建立資料倉儲的時候並不知道自己需要什麼,只有在他們看到最終分析結果,才能告訴資料倉儲工作人員什麼才是他們真正有用的。為了有效的獲得反饋,以下幾點技巧可供參考:

快速建立資料倉儲很小的子集並認真聽取使用者的反饋意見;

使用原型方法;

參考別人的經驗;

與有經驗的使用者協同工作;

以企業中已有的功能需要作參考;

定期舉行資料倉儲建設例會。

3.例舉銀行粒度小例子

3.1.銀行環境中粒度級別,下圖是銀行中的資料粒度例子。

銀行資料粒度

銀行的操作層存放的是以日為單位粒度的資料。銀行的各個業務系統只存放最近60天交易活動明細內容,方便使用者查詢最近兩個月的交易資訊詳情,這段時間使用者對交易資料明細最為關心。

資料倉儲層將資料匯聚成以月為單位粒度的彙總資料。銀行將過去長達十年的資料按每個賬戶每月交易資訊進行匯聚,儲存在直接儲存裝置,供高速查詢訪問,使用者對過去很久的交易明細並不在意,但是使用者需要快速查詢得出結果,此時提供以月為單位的彙總資料可以滿足使用者的需求。

所有的歷史資料以日為單位存放在溢位儲存區,該區域資料量極大,訪問頻率極低。一般銀行不受理長達十年的歷史明細資料查詢的請求,如果一些特殊情況需要查詢超過十年的歷史資料,查詢時間會相當緩慢。

4.小結

資料倉儲粒度的確定是乙個困難的過程,要求乙個合適的級別,既不能太高也不能太低。

選擇粒度級別很大程度上基於常識。建設之前作好適當的規劃,估算資料量並建立相應的反饋制度。在實施的過程中,首先建立資料倉儲的一小部分,並讓分析人員使用。然後聆聽他們的意見,根據他們的反饋對粒度級別進行適當的調整。

資料粒度(資料倉儲)

資料倉儲中的粒度是指資料的詳細程度,同樣為了描述乙個情況,我可以用很多的資料,但同樣我也可以只用必需的資料。而這起決於儲存器。如果有很大的硬碟,那就沒有我們不能存的事情。所以,估計一年內裡表中的最大行數和最小行數,是設計者的最大問題。這裡牽扯到了乙個概念 上下限推測的方法。別問我,我也不懂 然後通過...

資料倉儲中資料粒度

粒度問題是設計資料倉儲的乙個最重要方面。粒度是指資料倉儲的資料單位中儲存資料的細化或綜合程度的級別。細化程度越高,粒度級就越小 相反,細化程度越低,粒度級就越大。確定粒度是資料倉儲開發者需要面對的乙個重要的設計問題。如果資料倉儲的粒度確定合理,設計和實現中的其餘方面就可以非常順暢地進行 反之,如果粒...

資料倉儲中資料粒度

粒度問題是設計資料倉儲的乙個最重要方面。粒度是指資料倉儲的資料單位中儲存資料的細化或綜合程度的級別。細化程度越高,粒度級就越小 相反,細化程度越低,粒度級就越大。確定粒度是資料倉儲開發者需要面對的乙個重要的設計問題。如果資料倉儲的粒度確定合理,設計和實現中的其餘方面就可以非常順暢地進行 反之,如果粒...