資料倉儲的定義及特點

2021-05-26 21:57:24 字數 1793 閱讀 6663

目前,大家公認的資料倉儲創始人william h.inmon 在他所著的《建立資料倉儲》一書中對資料倉儲所下的定義是:資料倉儲是在企業管理和決策中面向主題的、整合的、不可更新的、隨時間不斷變化的資料集合。由這個定義可以看出資料倉儲主要有以下四個特點:

ø       面向主題:主題是在乙個較高層次上將資料進行綜合、歸類並進行分析利用的抽象。面向主題的資料組織方式,就是在較高層次上對分析物件的資料的完整、一致的描述,能統一地刻畫各個分析物件所涉及的企業的各項資料,以及資料之間的關係;

ø       整合的:由於各種原因,資料倉儲的每個主題所對應的的資料來源在原有的分散資料庫中通常會有許多重複和不一致的地方,而且不同聯機系統的資料都和不同的應用邏輯繫結,所以資料在進入資料倉儲之前必須統一和綜合,這一步是資料倉儲建設中最關鍵、最複雜的一步;

ø       不可更新的:資料倉儲的資料反映的是一段相當長的時間內歷史資料的內容,主要供企業決策分析之用。與面向應用的事務資料庫需要對資料作頻繁的插入、更新操作不同,資料倉儲中的資料所涉及的操作主要是查詢和新資料的匯入,一般不進行修改操作;

ø       隨時間不斷變化的:資料倉儲系統必須不斷捕捉oltp資料庫中變化的資料,並在經過統一整合後裝載到資料倉儲中。同時,資料倉儲中的資料也有儲存期限,會隨時間變化不斷刪去舊的資料,只是其資料時限遠比操作型環境的要長,比如根據需要可儲存10年內的歷史資料;

關係型資料庫技術已經被逐步接受和採用,隨著c/s、b/s技術的成熟和並行資料庫的發展,資訊處理技術的發展趨勢已變為:從大量的事務型資料庫中抽取資料,並將其清理、轉換為新的儲存格式,也就是為決策目標把資料聚合在一種特殊的格式中。隨著此過程的發展和完善,這種支援決策的、特殊的資料儲存即被稱為資料倉儲(data warehouse, dw)。典型的資料倉儲應該是乙個主題資料庫,支援使用者從巨大的運營資料儲存中發現資訊,支援對業務趨勢進行跟蹤和相應,實現業務的**和計畫(dm review雜誌)。更為廣泛接受的資料倉儲定義是資料倉儲之父bill inmon在2023年出版的「building the data warehouse」一書中所提到的:資料倉儲是乙個面向主題的,整合的,不同時間的,穩定的資料集合以便支援管理決策。

與關聯式資料庫不同的是,資料倉儲至今並沒有嚴格的數學理論基礎,它更偏向於工程。由於資料倉儲的這種工程特性,因而在技術上可以根據它的工作過程分為:資料的抽取、資料的儲存和管理、資料的展現等關鍵技術。資料倉儲的功能層次模型:

資料倉儲中的資料報括:元資料、粒度資料、當前詳細資料,歷史資料、檔案資料。

1、當前詳細資料:是資訊倉庫的核心,存放大量資料。資料來自業務運算元據庫,通過主題來組織,不是代表特定應用,而是代表整個企業。在倉庫中資料粒度最低,當資料精確化時,其中的每乙個資料實體都是乙個快照、乙個時刻,表示乙個瞬間。一旦需要經常支援企業需求,資料隨即進行更新。

2、歷史資料:以前的有意義資料(一般兩年以上),給企業帶來延續的利益和價值。包含巨大的資料量,可以用來**和趨勢分析。包括:舊資料(原始或彙總形式)、描述舊資料特徵的元資料。

3、元資料:最重要的部分,關於資料的資料。也稱為資料倉儲的結構,是所有資料的整合體現。倉庫開發者使用元資料來管理和控制倉庫的建立和維護。

4、粒度資料:定義為資料倉儲所保持的資訊的概要程度。不同粒度表示為不同級別的彙總資料。彙總資料是資訊倉庫的特點,所有的企業資料分類(按部門、地區、功能等)需要的資訊都不同,同時有效的資訊倉庫設計是為不同風格提供的,輕量級彙總資料為整個企業組成部分服務。通過企業資料分類找到詳細和彙總資料。但是它依舊比倉庫中的詳細資料少得多。高度彙總資料是企業執行的主要依據,它來自根據企業組成部分的輕量級彙總資料或來自當前詳細資料。這一層的資料容量比其他任何乙個都少,代表乙個折衷的積累,用來支援廣泛的各式的需要和興趣。通過高度彙總,執行者能夠使用「鑽取」到達逐步增加的詳細層。

01 玩轉資料倉儲 資料倉儲概念和特點

資料倉儲概念 資料倉儲之父bill inmon把資料倉儲定義為是乙個面向主題的 整合的 非易失的和時變的資料集合,用於支援管理者的決策過程。資料倉儲特點 面向主題 資料倉儲是為特定的資料分析領域提供資料支援的。比如乙個電商的資料倉儲的主題可以有 商品主題,訂單主題,使用者主題,銷售主題,庫存主題,物...

資料倉儲 大資料定義

2012年gartner公司將大資料定義為3v,即 大容量 volume 高流速 velocity 多樣化 variety 後來人們在3v基礎上增加新的v veracity 即真實性。現在人們普遍認可的大資料是具有4v,即 volume velocity variety veracity,也就是大 ...

資料倉儲 資料倉儲部署

1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...