資料倉儲及OLAP分析

2021-04-15 21:59:27 字數 4137 閱讀 3694

資料倉儲是儲存資料的一種組織形式,它從傳統資料庫中獲得原始資料,先按輔助決策的主題要求形成當前基本資料層,再按綜合決策的要求形成綜合資料層

(又可分為輕度綜合層和高度綜合層

)。隨著時間的推移,由時間控制機制將當前基本資料層轉為歷史資料層。可見資料倉儲中邏輯結構資料由3層到

4層資料組成,它們均由元資料

(meta data)

組織而成。資料倉儲中資料的物理儲存形式有多維資料庫組織形式

(空間超立方體形式

)和基於關聯式資料庫組織形式

(由關係型事實表和維表組成)。

資料倉儲系統

(dws)

由資料倉儲、倉庫管理和分析工具三部分組成。

源資料:資料倉儲的資料**於多個資料來源,包括企業內部資料、市場調查報告及各種文件之類的外部資料。

倉庫管理

: 在確定資料倉儲資訊需求後,首先進行資料建模,然後確定從源資料到資料倉儲的資料抽取、清理和轉換過程,最後劃分維數及確定資料倉儲的物理儲存結構。元資料是資料倉儲的核心,它用於儲存資料模型和定義資料結構、轉換規劃、倉庫結構、控制資訊等。

資料倉儲

: 包括對資料的安全、歸檔、備份、維護、恢復等工作,這些工作需要利用資料庫管理系統

(dbms)

的功能。

分析工具用於完成實際決策問題所需的各種查詢檢索工具、多維資料的

olap

分析工具、資料開採

dm工具等,以實現決策支援系統的各種要求。

資料倉儲應用是乙個典型的

c/s結構。其客戶端的工作包括客戶互動、格式化查詢及結果和報表生成等。伺服器端完成各種輔助決策的

sql查詢、複雜的計算和各類綜合功能等。現在,一種越來越普遍的形式是三層結構,即在客戶與伺服器之間增加乙個多維資料分析伺服器。

olap

伺服器能加強和規範決策支援的服務工作,集中和簡化原客戶端和

dw伺服器的部分工作,降低系統資料傳輸量,因此工作效率更高。

聯機分析處理

(olap)

的概念最早是由關聯式資料庫之父

e.f.codd

於1993

年提出的,他同時提出了關於

olap的12

條準則。

olap

的提出引起了很大的反響,

olap

作為一類產品同聯機事務處理

(oltp)

明顯區分開來。

當今的資料處理大致可以分成兩大類:聯機事務處理

oltp

(on-line transaction processing

)、聯機分析處理

olap

(on-line analytical processing

)。oltp

是傳統的關係型資料庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。

olap

是資料倉儲系統的主要應用,支援複雜的分析操作,側重決策支援,並且提供直觀易懂的查詢結果。下表列出了

oltp

與olap

之間的比較。

olap

是使分析人員、管理人員或執行人員能夠從多角度對資訊進行快速、一致、互動地訪問

,從而獲得對資料的更深入了解的一類軟體技術。

olap

的目標是滿足決策支援或者滿足在多維環境下特定的查詢和報表需求

,它的技術核心是"維

"這個概念。 「

維」是人們觀察客觀世界的角度

,是一種高層次的型別劃分。「維

」一般包含著層次關係

,這種層次關係有時會相當複雜。通過把乙個實體的多項重要的屬性定義為多個維

(dimension)

,使使用者能對不同維上的資料進行比較。因此

olap

也可以說是多維資料分析工具的集合。

olap

的基本多維分析操作有鑽取(

roll up

和drill down

)、切片(

slice

)和切塊(

dice

)、以及旋轉(

pivot

)、drill across

、drill through等。

· 鑽取是改變維的層次,變換分析的粒度。它包括向上鑽取(

roll up

)和向下鑽取(

drill down

)。roll up

是在某一維上將低層次的細節資料概括到高層次的彙總資料,或者減少維數;而

drill down

則相反,它從彙總資料深入到細節資料進行觀察或增加新維。 ·

切片和切塊是在一部分維上選定值後,關心度量資料在剩餘維上的分布。如果剩餘的維只有兩個,則是切片;如果有三個,則是切塊。 ·

旋轉是變換維的方向,即在**中重新安排維的放置(例如行列互換)。

olap

有多種實現方法,根據儲存資料的方式不同可以分為

rolap

、molap

、holap。

rolap

表示基於關聯式資料庫的

olap

實現(relational olap

)。以關聯式資料庫為核心

,以關係型結構進行多維資料的表示和儲存。

rolap

將多維資料庫的多維結構劃分為兩類表

:一類是事實表

,用來儲存資料和維關鍵字

;另一類是維表

,即對每個維至少使用乙個表來存放維的層次、成員類別等維的描述資訊。維表和事實表通過主關鍵字和外關鍵字聯絡在一起

,形成了

"星型模式

"。對於層次複雜的維

,為避免冗餘資料占用過大的儲存空間

,可以使用多個表來描述

,這種星型模式的擴充套件稱為

"雪花模式"。

molap

表示基於多維資料組織的

olap

實現(multidimensional olap

)。以多維資料組織方式為核心

,也就是說

,molap

使用多維陣列儲存資料。多維資料在儲存中將形成

"立方塊(

cube)"

的結構,

在molap 中對"

立方塊"的"

旋轉"、"

切塊"、"

切片"是產生多維資料包表的主要技術。

holap

表示基於混合資料組織的

olap

實現(hybrid olap

)。如低層是關係型的,高層是多維矩陣型的。這種方式具有更好的靈活性。

還有其他的一些實現

olap

的方法,如提供乙個專用的

sql server

,對某些儲存模式(如星型、雪片型)提供對

sql查詢的特殊支援。

olap

工具是針對特定問題的聯機資料訪問與分析。它通過多維的方式對資料進行分析、查詢和報表。維是人們觀察資料的特定角度。例如,乙個企業在考慮產品的銷售情況時,通常從時間、地區和產品的不同角度來深入觀察產品的銷售情況。這裡的時間、地區和產品就是維。而這些維的不同組合和所考察的度量指標構成的多維陣列則是

olap

分析的基礎,可形式化表示為(維1,維

2,……,維

n,度量指標),如(地區、時間、產品、銷售額)。多維分析是指對以多維形式組織起來的資料採取切片(

slice

)、切塊(

dice

)、鑽取(

drill-down

和roll-up

)、旋轉(

pivot

)等各種分析動作,以求剖析資料,使使用者能從多個角度、多側面地觀察資料庫中的資料,從而深入理解包含在資料中的資訊。

根據綜合性資料的組織方式的不同,目前常見的

olap

主要有基於多維資料庫的

molap

及基於關聯式資料庫的

rolap

兩種。molap

是以多維的方式組織和儲存資料,

rolap

則利用現有的關聯式資料庫技術來模擬多維資料。在資料倉儲應用中,

olap

應用一般是資料倉儲應用的前端工具,同時

olap

工具還可以同資料探勘工具、統計分析工具配合使用,增強決策分析功能。

什麼是聯機分析處理(

olap

資料倉儲 OLAP

1.什麼是資料倉儲 資料倉儲是面向主題的 整合的 隨時間變化的 不容易丟失的資料集合,支援管理部門的決策過程 2.oltp和olap的區別 使用者和系統的面向性 顧客vs市場 資料內容 當前的 詳細的資料vs歷史的 彙總的資料 資料庫設計 實體 聯絡模型 er 和面向應用的資料庫設計vs星形 雪花型...

資料倉儲邏輯 物理結構及OLAP分析

資料倉儲是儲存資料的一種組織形式,它從傳統資料庫中獲得原始資料,先按輔助決策的主題要求形成當前基本資料層,再按綜合決策的要求形成綜合資料層 又可分為輕度綜合層和高度綜合層 隨著時間的推移,由時間控制機制將當前基本資料層轉為歷史資料層。可見資料倉儲中邏輯結構資料由3層到4層資料組成,它們均由元資料 m...

資料倉儲(十) OLAP技術

olap伺服器通常採用多維模型 inmon認為多維模型應當用在資料集市上,而資料倉儲應採用關係模型 kimball認為可以直接採用多維模型建立維度資料倉儲。二人均認可多維模型,只是應用場景不同 其具體實現可分為 rolap 關係型聯機分析處理 rolap基本資料和聚合資料均存放在rdbms之中。mo...