資料倉儲和OLAP(概念)

2021-09-23 21:29:26 字數 3247 閱讀 2278

簡寫為olap,隨著資料庫技術的發展和應用,資料庫儲存的資料量從20世紀80年代的兆(m)位元組及千兆(g)位元組過渡到現在的兆兆(t)位元組和千兆兆(p)位元組,同時,使用者的查詢需求也越來越複雜,涉及的已不僅是查詢或操縱一張關係表中的一條或幾條記錄,而且要對多張表中千萬條記錄的資料進行資料分析和資訊綜合,關係資料庫系統已不能全部滿足這一要求。在國外,不少軟體廠商採取了發展其前端產品來彌補關聯式資料庫管理系統支援的不足,力圖統一分散的公共應用邏輯,在短時間內響應非資料處理專業人員的複雜查詢要求。

聯機分析處理(olap)系統是資料倉儲系統最主要的應用,專門設計用於支援複雜的分析操作,側重對決策人員和高層管理人員的決策支援,可以根據分析人員的要求快速、靈活地進行大資料量的複雜查詢處理,並且以一種直觀而易懂的形式將查詢結果提供給決策人員,以便他們準確掌握企業(公司)的經營狀況,了解物件的需求,制定正確的方案。.

資料倉儲

,英文名稱為data warehouse,可簡寫為

dw或dwh。資料倉儲是為企業所有級別的決策制定過程提供支援的所有型別資料的戰略

集合。它是單個資料

儲存,出於分析性報告和決策支援的目的而建立。 為企業提供需要業務智慧型來指導業務流程改進和監視時間、成本、質量和控制。

資料倉儲的特點可以從資料倉儲的定義來理解。目前資料倉儲的定義是不統一的。公認的資料倉儲之父w.hinmon將其定義為:「資料倉儲是支援管理決策過程的、面向主題的、整合的、隨時間而變的、持久的資料集合。」他指出了資料倉儲面向主題、整合、穩定和隨時間變化這4個最重要的特徵。

1.面向主題

業務系統是以優化事務處理的方式來構造資料結構的,對於某個主題的資料常常分布在不同的業務資料庫中。這對於商務分析和決策支援來說是極為不利的,因為這意味著訪問某個主題的資料實際上需要去訪問多個分布在不同資料庫中的資料集合。

對於商務分析來說,典型的主題域有客戶、產品、交易(銷售)和收益等。例如在圖3-2中示例了乙個以零售業為主的企業情況。該企業在以前的企業資訊化中已經構建了消費資料庫、客戶服務資料庫和市場資訊資料庫。其中,消費資料庫記錄了客戶對不同產品的消費情況,客戶服務資料庫記錄了客戶的諮詢和投訴情況。這2個資料都是客戶主題的相關資料。如果直接使用業務系統進行決策支援,則需要分別訪問這2個資料庫才能獲得客戶各個側面的資訊,這樣將極大的浪費系統處理的時間和效率,並且資料之間的不一致性和不同步問題,將極大影響決策的可靠性。

基於以上的原因,資料倉儲將這些資料集中於乙個地方,在這種結構中,對應某個主題的全部資料被存放在同一資料表中,這樣決策者可以非常方便地在資料倉儲中的乙個位置檢索包含某個主題的所有資料。在圖3-2中,有客戶和市場兩個分析主題,客戶主題可以從消費資料庫和客戶服務資料庫中獲得客戶消費和諮詢等全方位的資訊;市場主題可以從市場資訊資料庫分析市場的發展趨勢。這種按主題的資料組織方法,極大地方便了資料分析的過程。主題的具體分析過程將在下一節學習。

錯誤! 

圖3-2  資料倉儲面向主題的特性

2.整合的

全面而正確的資料是有效地進行分析和決策的首要前提。在某乙個主題的統帥下,需要將資料進行提取、淨化、轉換和裝載等整合操作。

比如在客戶主題中,對於客戶名稱,業務資料庫的設計中有的欄位名為user_name,型別為char(10),有的欄位名是name,型別是varchar(12),但在進入分析資料庫時必須使用同一欄位的命名和格式。這在sql server 2005中實際上是通過ssis來完成的,但在資料庫設計階段也需要把資料的整合方案設計出來,而具體的操作則主要體現在對ssis的操作上。

3.穩定的

業務系統一般只需要當前資料,在資料庫中一般也儲存短期資料,因此在資料庫系統中資料是不穩定的,它記錄的是系統中每乙個變化的瞬態。但對於決策分析而言,歷史資料是相當重要的,許多分析方法必須以大量的歷史資料為依託。沒有歷史資料的詳細分析是難以把握企業的發展趨勢的,因此,資料倉儲對資料在空間和時間的廣度上都有了更高的要求。在資料倉儲中,資料一旦被寫入就不再變化了。資料倉儲可以看成是乙個虛擬的唯讀資料庫系統。在資料整合性中已經說明了資料倉儲在資料儲存方面是分批進行的,定期執行提取過程為資料倉儲增加記錄,但是這些記錄一旦加入,就不再從系統中刪除。正是由於資料倉儲的這個顯著特點,使得資料倉儲不需要在併發讀寫控制上投入過多的精力,因為所有的使用者只是以唯讀的方式訪問資料倉儲。

圖3-3演示了資料穩定性的乙個簡單的例子。在1月2日,99號客戶的消費金額為200元,當時間推移到3月2日,99號客戶的消費金額變成250元,這一資訊在業務系統中被更新了。但是在資料倉儲中(我們假定資料倉儲每天進行一次資料提取),3月2日的資料提取結果是在資料倉儲中增加了記錄222,原先的記錄111並沒有發生任何的改變,說明99號客戶在3月2日的消費金額為250元。可見,資料倉儲實際上是為99號客戶的消費行為進行了定期的拍照,並將快照儲存起來供後續的分析工作使用。

圖3-3  資料倉儲的資料穩定性示例

4.隨時間變化的

由於在資料倉儲中資料只增不減,這使得資料倉儲中的資料總是擁有時間維度。資料倉儲實際上就是記錄系統的各個瞬態,並通過將各個瞬態連線起來形成動畫,從而在資料分析的時候再現系統運動的全過程。資料提取的週期實際上決定了動畫間隔的時間,資料提取的周期短,則動畫的速度快,圖3-4示意了這種特點。

圖3-4  資料倉儲資料隨時間變化的特點

資料倉儲同資料庫相比,還具有其他的特點。如資料倉儲中的資料不再像資料庫中的資料具有嚴格規範化的特點,這也是由資料倉儲的應用需求決定的。資料倉儲為了能夠在盡量短的時間內將資料呈現給使用人員,使用所謂的「空間換時間」的技術,犧牲了資料的規範化,增加了資料的冗餘度,從而減少系統的響應時間。再如,資料庫系統和資料倉儲系統在硬體的利用模式上具有很大的區別。在資料庫環境下,硬體資源利用率總是保持在乙個相對穩定的狀態,這是由於不斷地有事務需要處理。而在資料倉儲環境下,系統的硬體資源常常在高利用率和低利用率之間切換。當系統進行資料分析應用時,硬體資源的利用率很高,而系統空閒(資料分析的工作在每天的某些時段進行,並不像事務處理工作那樣一直進行)時,硬體資源的利用率就很低,如圖3-5所示。

圖3-5  資料庫系統和資料倉儲系統的硬體利用率

由於資料庫系統和資料倉儲系統在硬體利用率上的差異,我們難於在同一臺伺服器上既進行優化操作型處理,又進行優化分析型處理,因此資料庫系統和資料倉儲系統在物理上應當由不同的伺服器來執行。

資料倉儲 OLAP

1.什麼是資料倉儲 資料倉儲是面向主題的 整合的 隨時間變化的 不容易丟失的資料集合,支援管理部門的決策過程 2.oltp和olap的區別 使用者和系統的面向性 顧客vs市場 資料內容 當前的 詳細的資料vs歷史的 彙總的資料 資料庫設計 實體 聯絡模型 er 和面向應用的資料庫設計vs星形 雪花型...

資料倉儲及OLAP分析

資料倉儲是儲存資料的一種組織形式,它從傳統資料庫中獲得原始資料,先按輔助決策的主題要求形成當前基本資料層,再按綜合決策的要求形成綜合資料層 又可分為輕度綜合層和高度綜合層 隨著時間的推移,由時間控制機制將當前基本資料層轉為歷史資料層。可見資料倉儲中邏輯結構資料由3層到 4層資料組成,它們均由元資料 ...

資料倉儲(十) OLAP技術

olap伺服器通常採用多維模型 inmon認為多維模型應當用在資料集市上,而資料倉儲應採用關係模型 kimball認為可以直接採用多維模型建立維度資料倉儲。二人均認可多維模型,只是應用場景不同 其具體實現可分為 rolap 關係型聯機分析處理 rolap基本資料和聚合資料均存放在rdbms之中。mo...