資料倉儲基本知識之二

2021-06-04 15:30:26 字數 1723 閱讀 1409

資料倉儲(data warehouse)是乙個面向主題的(subject oriented)、整合的(integrate)、相對穩定的(non-volatile)、反映歷史變化(time variant)的資料集合,用於支援管理決策。

對於資料倉儲的概念我們可以從兩個層次予以理解,首先,資料倉儲用於支援決策,面向分析型資料處理,它不同於企業現有的操作型資料庫;其次,資料倉儲是對多個異構的資料來源有效整合,整合後按照主題進行了重組,幷包含歷史資料,而且存放在資料倉儲中的資料一般不再修改。

粒度

粒度問題是設計資料倉儲的乙個重要方面。

粒度是指資料倉儲的資料單位中儲存資料的細化或綜合程度的級別。

細化程度越高,粒度級就越小;相反,細化越低,粒度級就越大。

在資料倉儲環境中粒度之所以是主要的設計問題,是因為它影響存放在資料倉儲中的資料量的大小,同時影響資料倉儲所能回答的查詢型別。

元資料

元資料是關於資料的資料。

元資料的重要性在於:dss分析人員在使用資料倉儲進行決策分析時,需要得到盡可能多的幫助,而元資料恰好能很好地幫助他們。

元資料在資料倉儲的上層,並且記錄資料倉儲中物件的位置。

典型的元資料主要記錄:

1、 資料倉儲表的結構

2、 資料倉儲表的屬性

3、 資料倉儲的源資料(記錄系統)

4、 從記錄系統到資料倉儲的對映

5、 資料模型的規格說明

6、 抽取資料的歷史記錄(日誌)

7、 訪問資料的公用例行程式

資料倉儲體系結構

企業資料倉儲的建設,是以現有企業業務系統和大量業務資料的積累為基礎。

資料倉儲不是靜態的概念,只有把資訊及時交給需要這些資訊的使用者,供他們做出改善其業務經營的決策,資訊才能發揮作用,資訊才有意義。

而把資訊加以整理歸納和重組,並及時提供給相應的管理決策人員,是資料倉儲的根本任務。

因此,從產業界的角度看,資料倉儲建設是乙個工程,是乙個過程。

整個資料倉儲系統是乙個包含四個層次的體系結構,具體如下所示:

資料來源:是資料倉儲系統的基礎,是整個系統的資料源泉。通常包括企業內部資訊和外部資訊。內部資訊包括存放於關係型資料庫rdbms中的各種業務處理資料和各類文件資料。外部資訊包括各類法律法規、市場資訊和競爭對手的資訊等等;l

目前,我們的資料倉儲的資料來源主要是內部資訊,也就是**於各個資訊系統下的關係型資料庫。

資料的儲存與管理:是整個資料倉儲系統的核心。資料倉儲的真正關鍵是資料的儲存和管理。針對現有各業務系統的資料,進行抽取、清理,並有效整合,按照主題進行組織。裝載入資料倉儲。資料倉儲按照資料的覆蓋範圍可以分為企業級資料倉儲和部門級資料倉儲(通常稱為資料集市)。l

目前,我們的資料倉儲主要是企業級資料倉儲,並沒有部門級資料倉儲,也就是所謂的資料集市。

olap伺服器:對分析需要的資料進行有效整合,按多維模型予以組織,以便進行多角度、多層次的分析,並發現趨勢。其具體實現可以分為:rolap、molap和holap。rolap基本資料和聚合資料均存放在rdbms之中;molap基本資料和聚合資料均存放於多維資料庫中;holap基本資料存放於rdbms之中,聚合資料存放於多維資料庫中。l

前端工具:主要包括各種報表工具、查詢工具、資料分析工具、資料探勘工具以及各種基於資料倉儲或資料集市的應用開發工具。其中資料分析工具主要針對olap伺服器,報表工具、資料探勘工具主要針對資料倉儲。l

資料倉儲基本知識你了解多少

資料倉儲是商業智慧型系統的基礎,以往的資料庫系統主要用於事務處理,很難或無法實現分析處理。近年來,越來越多的資料分析與決策資訊支援在被企業所重視,資料倉儲技術應運而生。資料倉儲的定義 目前對於資料倉儲還沒有統一的定義,被稱為資料倉儲之父的billinmon在其著作 building the data...

資料倉儲ETL(二)基本概念

資料治理領域有一些基本名詞,資料倉儲,資料探勘,商業智慧型,資料同步,聯機計算等等,下面一起看一下專有的名詞。資料庫,一般指支撐應用的資料庫,包括mysql,oracle,postgresql,sqlserver等關係型資料庫,也可以是mongodb,redis,hbase等非關係型資料庫。特點是保...

資料倉儲(二) 資料倉儲為什麼要分層

1 空間換時間。通過建設多層次的資料模型供使用者使用,避免使用者直接使用操作型資料,可以更高效的訪問資料。把複雜問題簡單化。講乙個複雜的任務分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。而且便於維護資料的準確性,當資料出現問題之後,可以不用修復所有的資料,只需要從有問題的步驟開始...