資料倉儲的基本概念

2021-08-29 08:15:44 字數 2690 閱讀 3124

1資料倉儲

1.1概念

資料倉儲(datawarehouse)的概念是e.f.codd於2023年的一篇文章中提出的。

資料倉儲的主要功能是提供企業決策支援系統(dss)或行政資訊系統(eis)所需要的資訊,它把企業日常營運中分散不一致的資料經歸納整理之後轉換為集中統一的、可隨時取用的深層資訊,這種資訊雖然也是按關聯式資料庫的儲存結構儲存起來的,但與面向逐條記錄的oltp不同,在資料倉儲中的一條記錄,有可能是基礎資料中若干個表、若干條記錄的歸納和彙總。因此,資料倉儲是面向主題的、整合的、穩定的、不同時間的資料集合,用以支援經營管理中的決策制定過程。與聯機事物處理(oltp)相比,它是一種完全新型的資訊管理方式。

從體系結構上看,資料倉儲系統由三部分組成:資料倉儲、資料倉儲管理系統和資料倉儲工具。在整個決策支援系統中,資料倉儲是進一步進行資訊開採的基礎。

1.2資料倉儲的基本特點

資料倉儲是將歷史資料、現有資料庫中的資料、外部資料來源的資料清理後,消除資料冗餘和不一致性,進行統一管理。由於資料庫的資料已與應用資料庫中的資料分離,因此它具有更強的靈活性、開放性和主觀性。可採用諸多視覺化資料分析和處理工具對其進行處理,而不會影響應用資料庫中的資料。其特點可概括如下:

(1)資料倉儲儲存的資訊是面向主題來組織的。它根據所需要的資訊,分不同類、不同角度等主題把資料整理之後儲存起來(按橫向對資料進行分類儲存)。

(2)資料倉儲中要有一處專門用來儲存5至10年或更久的歷史資料,以滿足比較、**之用的資料需求(按縱向對資料進行分類儲存)。

(3)不論資料**於何處,進入資料倉儲之後都具有統一的資料結構和編碼規則,資料倉儲中的資料具有一致性特點。

(4)資料倉儲是乙個資訊源,它只是為在其上開發的dss或eis等提供資料服務,因此它應是唯讀資料庫,一般不輕易做改動,只能定期重新整理。

1.3據倉庫的基本結構

資料倉儲中的資訊儲存,是根據對資料的不同深度處理來分成不同層次的。其結構一般劃分為以下幾個方面:

(1)歷史性詳細資料層———它儲存歷史資料,供分析、建模、**之用。

(2)當前詳細資料層———儲存最新詳細資料,是進一步分析資料的基礎。

(3)不同程度的歸納總結資訊層———可包含多個層次,根據所需分類和歸納的不同深度而定。如按周、月、年統計的資料。

(4)專業分析資訊層———進一步專業分析的結果,如統計分析、運籌分析、時間序列分析以及表面資料的內部規律分析等。

(5)結構資訊———資料倉儲的內部結構資訊,反應各種資訊在資料庫中的位置分布和處理方式等,以便檢索查詢之用。

1.4建造資料倉儲的五個步驟

以下步驟中前三步是從應用系統向資料倉儲遷移的過程。查詢是決策支援系統對資料倉儲進行訪問、對資料進行分析的過程。元資料是用於控制與管理資料倉儲的資料。

(1)資料來源分析(source)應用資料庫和外部資料來源中儲存著大量的業務資料與各類可利用的商業資訊。在資料倉儲的分析與設計階段,需進行應用資料庫與資料倉儲之間的資料映象、資料整合分析、資料質量評價等工作。即在滿足商業規則的前提下,如何從己有的應用資料庫中提煉資料。這是一項深入細緻的工作,往往需要占用整個專案的75%到80%的時間。目前還沒有也難開發出有力的工具來自動完成。

(2)資料載入(load)資料載入包括資料提煉、資料清理、資料轉換、倉庫資料載入等工作。

(3)資料儲存(storage)資料倉儲中的資料有兩種主要的儲存方式。一種是多維資料庫(mddbms),其中的資料以n維陣列的方式儲存,其優點是便於資料倉儲的使用者理解與訪問,但它往往只能覆蓋某個商業領域,很難滿足決策支援所要求的全面的需求。另一種是目前流行的關聯式資料庫(rdbms),它是整合的資料庫,能夠提供覆蓋所有商業領域的資料共享。

(4)查詢(query)建造資料倉儲的目的是以整合的、高質量的資料滿足決策支援系統的需要。查詢就是利用資料倉儲進行企業管理方面的**分析的過程。使用者可以利用多維的olap的查詢工具訪問資料倉儲。

資料倉儲的建立與應用,對於原有的業務系統來說具有閉環反饋作用。其分析**結果將用於進一步完善業務系統及商業原則。

(5)元資料(meta-data)元資料是資料倉儲的基石。它包括了資料倉儲中所有資料的有效性、取值範圍、生成方式、以及從業務系統資料轉化為資料倉儲資料的規則。資料倉儲的效能及監探資料也被作為元資料儲存。同樣,還可將有關資料質量的指示資料作為元資料。

1.5資料倉儲所面臨的主要問題

資料倉儲是隨企業對於dss或eis不斷增長的市場需求,以及現實中存在的大量重複工作等問題應運而生?。目前,大多數dss或eis的資料處理工作都是由系統本身完成的,這是一種極不經濟和效率低的做法。乙個好的決策支援系統,其90%以上的資料處理工作應在資料倉儲中完成。然而,要建造乙個實用的資料倉儲,必須首先解決以下幾個問題:

(1)對大量的不同格式、跨越不同軟硬體平台的企業中一般營運資料要能及時、有效地訪問到。

(2)對訪問到的基本資料要能進行有效的分類、合併、歸納、整理以及深層次的分析和處理。

(3)必須具備乙個合理的資料儲存結構。

(4)建造的資料倉儲具有開放性,使其不僅能為某一專門系統提供服務,更能被其他應用系統訪問到,成為眾多資訊系統的物理資訊源。

1.6資料倉儲的應用

乙個成功的資料倉儲可能會給企業帶來巨大的收益,使其在激烈的市場競爭之中立於不敗之地。在國外,這方面的成功例項已有很多。正是由於這一原因,在2023年,全球前2000家企業中只有5%採用資料倉儲技術,而在2023年,這一數字已增至95%。

例如,世界著名的萬事達信用卡公司只用了5個月的時間快速建立了乙個全球範圍的資料倉儲系統。提供給它的22,000個成員銀行查詢及分析客戶購買方式的資料,目的是開拓特殊的業務,並且分析市場上購買方式的新發展趨勢。

Hive資料倉儲基本概念

1.基本概念 資料倉儲的目的是構建面向分析的整合化資料環境,為企業提供決策支援。資料倉儲是存資料的,企業的各種資料都往裡面存,主要目的是分析有效資料,後續會基於它產出供分析挖掘的資料。2.資料倉儲的分層架構 恢復內容開始 1.基本概念 資料倉儲的目的是構建面向分析的整合化資料環境,為企業提供決策支援...

資料倉儲ETL(二)基本概念

資料治理領域有一些基本名詞,資料倉儲,資料探勘,商業智慧型,資料同步,聯機計算等等,下面一起看一下專有的名詞。資料庫,一般指支撐應用的資料庫,包括mysql,oracle,postgresql,sqlserver等關係型資料庫,也可以是mongodb,redis,hbase等非關係型資料庫。特點是保...

資料倉儲的概念

隨著市場競爭的加劇和資訊社會需求的發展,從大量資料中提取 檢索 查詢等 制定市場策略的資訊就顯得越來越重要了。這種需求既要求聯機服務,又涉及大量用 於決策的資料,而傳統的資料庫系統已無法滿足這種需求。其具體體現在三個方面 歷史資料量很大。輔助決策資訊涉及許多部門的資料,而不同系統的資料難以整合。由於...