《資料倉儲》讀書筆記 2

讀了資料倉儲第2章，這一章講解的是資料倉儲環境。

梳理出來的知識點：

1、資料倉儲是面向主題的。（資料倉儲的資料只對於特定的領域或客戶是有意義的。）

2、資料倉儲整合。這是資料倉儲所有特性中最重要的特性。資料倉儲中的資料是從多個資料來源來的。整合的功能之一就是消除不同資料來源對於同一資料的表示差異。

3、資料倉儲是非易失的。資料倉儲中的資料一般意義上不進行資料更新。

4、資料倉儲是隨時間變化的。

5、建立資料倉儲不是一蹴而就的。相反，資料倉儲只能一步一步地進行設計並載入資料。即它是進化的不是革命性的。一下子完整地簡歷乙個資料倉儲的費用、所需的資源和對環

境的破壞，都決定了資料倉儲的建立要採用有序地反覆和一步一步進行的方式。對於資料倉儲的開發而言，**式的開發智慧型帶來災難性的後果，這種方法永遠不是合適的選擇。

6、當資料倉儲資料量非常龐大時可以考慮使用「活樣本資料庫」。活樣本資料庫是從資料倉儲中取得的真實檔案資料或輕度綜合資料的乙個子集。（個人感覺活樣本資料庫就是使

用概率論的理論從全集資料庫中隨機抽取資料以使資料在某一方面統計概率近似於真實資料環境）

本章小結如下：

資料的粒度與分割槽時進行資料倉儲設計決策的兩個最重要的方面。對於大部分機構來說，採用雙重粒度是非常有意義的。資料分割槽是將資料分解成為小的物理單元。通常，分割槽時在應用層而非系統層進行。

資料倉儲開發最好是以反覆的方式進行。首先，簡歷資料倉儲的一部分，然後再建立另一部分。幻想一次建成資料倉儲是不合適的。其中乙個原因是資料倉儲的終端使用者工作於一種發現模式下，只有在資料倉儲的第一次迴圈開發完成後，開發者才能確定資料倉儲中究竟應該包含什麼。

資料倉儲中資料的粒度是資料倉儲設計中最重要的問題。非常低的粒度會帶來大量資料，系統最終會被巨大的資料量所壓垮。非常高的粒度雖然處理起來高效，但卻不能進行許多需要細節資料的分析。此外，資料倉儲中的粒度的選擇應該在清楚地知道哪些體系結構部件需要從資料倉儲獲取資料的前提下進行。

令人驚奇的是有許多設計也可以用來處理粒度的問題。其中一種方法是建立乙個服務於不同型別查詢與分析的雙重粒度的多層資料倉儲。另一種方法是建立乙個活樣本資料庫，這樣統計處理就可以再這個活樣本資料庫上進行非常高效的處理。

資料倉儲的分割槽也由於許多原因而特別重要。資料分割槽似的資料可以在小的分開的離散單元中進行管理。這使得資料倉儲中的資料裝載變得簡單，建立索引也更流暢，資料歸檔也變得容易，等等。至少有兩種對資料進行分割槽的方法---在dbms/操作西天那個層和在應用層。每一種分割槽方法都有各自的優缺點。

資料倉儲環境中的每一資料單元都有乙個時刻與它關聯。一般情況下，這個時刻在每個記錄中以快照形式出現。另一些情況下，這個時間是應用於整個表的。資料經常是按天、月或季度彙總的。另外，資料以一種連續的方式建立。資料的內部時間組織可以用多種形式實現。

審計可以再資料倉儲中進行，但卻不應該在其中進行。相反，審計最好置於細節的面向作業系統型事務的環境中進行。在資料倉儲中進行審計會強制資料倉儲採用某種粒度級，但這可能並不是其他處理所需的力度級。

資料倉儲中的資料生命週期包含了資料的清理。開發者經常在設計規範中忽視了清理。結果導致資料倉儲永遠地增長下去，這當然是不能能的。