資料倉儲系列 簡介 李孟 新浪部落格

2021-10-10 12:08:25 字數 2669 閱讀 3005

打算做資料倉儲系列,可能會時間上跨度很大,畢竟現在專案比較繁忙。

一.資料倉儲定義

資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它出於分析性報告和決策支援目的而建立。 為需要業務智慧型的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。

二.特點

1.面向主題

與傳統資料庫面向應用進行資料組織的特點相對應,資料倉儲中的資料是面向主題進行組織的。什麼是主題呢?首先,主題是乙個抽象的概念,是較高層次上企業資訊系統中的資料綜合、歸類並進行分析利用的抽象。在邏輯意義上,它是對應企業中某一巨集觀分析領域所涉及的分析物件。

2.資料是整合

資料倉儲的資料是從原有的分散的資料庫資料抽取來的。操作型資料與dss分析型資料之間差別甚大:

(1)要統一源資料中所有矛盾之處,如字段的同名異義、異名同義、單位不統

一、字長不一致,等等。

(2)進行資料綜合和計算。資料倉儲中的資料綜合工作可以在從原有資料庫抽取 資料時生成,但許多是在資料倉儲內部生成的,即進入資料倉儲以後進行綜合生成的。

3.資料是不可更新

資料倉儲的資料主要供企業決策分析之用,所涉及的資料操作主要是資料查詢,一般情況下並不進行修改操作。資料倉儲的資料反映的是一段相當長的時間內歷史資料的內容,是不同時點的資料庫快照的集合,以及基於這些快照進行統計、綜合和重組的匯出資料,而不是聯機處理的資料。資料庫中進行聯機處理的資料經過整合輸入到資料倉儲中,一旦資料倉儲存放的資料已經超過資料倉儲的資料儲存期限,這些資料將從當前的資料倉儲中刪去。因為資料倉儲只進行資料查詢操作,所以資料倉儲管理系統相比資料庫管理系統而言要簡單得多。資料庫管理系統中許多技術難點,如完整性保護、併發控制等等,在資料倉儲的管理中幾乎可以省去。但是由於資料倉儲的查詢資料量往往很大,所以就對資料查詢提出了更高的要求,它要求採用各種複雜的索引技術;同時由於資料倉儲面向的是商業企業的高層管理者,他們會對資料查詢的介面友好性和資料表示提出更高的要求。

4.資料是隨時間不斷變化

資料倉儲中的資料不可更新是針對應用來說的,也就是說,資料倉儲的使用者進行分析處理時是不進行資料更新操作的。但並不是說,在從資料整合輸入資料倉儲開始到最終被刪除的整個資料生存週期中,所有的資料倉儲資料都是永遠不變的。

資料倉儲的資料是隨時間的變化而不斷變化的,這是資料倉儲資料的第四個特徵。這一特徵表現在以下3方面:

(1)資料倉儲隨時間變化不斷增加新的資料內容。資料倉儲系統必須不斷捕捉oltp資料庫中變化的資料,追加到資料倉儲中去,也就是要不斷地生成oltp資料庫的快照,經統一整合後增加到資料倉儲中去;但對於確實不再變化的資料庫快照,如果捕捉到新的變化資料,則只生成乙個新的資料庫快照增加進去,而不會對原有的資料庫快照進行修改。

(2)資料倉儲隨時間變化不斷刪去舊的資料內容。資料倉儲的資料也有儲存期限,一旦超過了這一期限,過期資料就要被刪除。只是資料倉儲內的資料時限要遠遠長於操作型環境中的資料時限。在操作型環境中一般只儲存有60~90天的資料,而在資料倉儲中則需要儲存較長時限的資料(如5~10年),以適應dss進行趨勢分析的要求。

(3)資料倉儲中包含有大量的綜合資料,這些綜合資料中很多跟時間有關,如資料經常按照時間段進行綜合,或隔一定的時間片進行抽樣等等。這些資料要隨著時間的變化不斷地進行重新綜合。因此,資料倉儲的資料特徵都包含時間項,以標明資料的歷史時期。

二.發展歷程

1.簡單報表階段:這個階段,系統的主要目標是解決一些日常的工作中業務人員需要的報表,以及生成一些簡單的能夠幫助領導進行決策所需要的彙總資料。這個階段的大部分表現形式為資料庫和前端報表工具。

2.資料集市階段:這個階段,主要是根據某個業務部門的需要,進行一定的資料的採集,整理,按照業務人員的需要,進行多維報表的展現,能夠提供對特定業務指導的資料,並且能夠提供特定的領導決策資料。

3.資料倉儲階段:這個階段,主要是按照一定的資料模型,對整個企業的資料進行採集,整理,並且能夠按照各個業務部門的需要,提供跨部門的,完全一致的業務報表資料,能夠通過資料倉儲生成對對業務具有指導性的資料,同時,為領導決策提供全面的資料支援。

三.資料庫與資料倉儲區別

資料庫軟體:是一種軟體,可以看得見,可以操作。用來實現資料庫邏輯功能。屬於物理層。

資料庫:是一種邏輯概念,用來存放資料的倉庫。通過資料庫軟體來實現。資料庫由很多表組成,表是二維的,一張表裡可以有很多字段。字段一字排開,對應的資料就一行一行寫入表中。資料庫的表,在於能夠用二維表現多維關係。目前市面上流行的資料庫都是二維資料庫。如:oracle、db2、mysql、sybase、ms sql server等。

資料倉儲:是資料庫概念的公升級。從邏輯上理解,資料庫和資料倉儲沒有區別,都是通過資料庫軟體實現的存放資料的地方,只不過從資料量來說,資料倉儲要比資料庫更龐大得多。資料倉儲主要用於資料探勘和資料分析,輔助領導做決策。

資料庫與資料倉儲的區別實際講的是oltp與olap的區別。

操作型處理,叫聯機事務處理oltp(on-line transaction processing),也可以稱面向交易的處理系統,它是針對具體業務在資料庫聯機的日常操作,通常對少數記錄進行查詢、修改。使用者較為關心操作的響應時間、資料的安全性、完整性和併發支援的使用者數等問題。傳統的資料庫系統作為資料管理的主要手段,主要用於操作型處理。

分析型處理,叫聯機分析處理olap(on-line analytical processing)一般針對某些主題的歷史資料進行分析,支援管理決策。

參考《hadoop 構建資料倉儲實踐》

資料倉儲系列 建模 李孟 新浪部落格

一.資料倉儲的資料模型 1.系統記錄域 system of record 這部分是主要的資料倉儲業務資料儲存區,資料模型在這裡保證了資料的一致性。2.內部管理域 housekeeping 這部分主要儲存資料倉儲用於內部管理的元資料,資料模型在這裡能夠幫助進行統一的元資料的管理。3.彙總域 summa...

資料倉儲系列 維度表技術 李孟 新浪部落格

維度表技術常見 增加列,維度子集,角色扮演維度,層次維度,退化維度,雜項維度,維度合併,分段維度等基本維度表技術。一 增加列 事實表和維度表上增加列。hive上增加列,慎用alter table。原因老版本的hive對orc格式表的模式修改,尤其是增加列的支援存在很多問題。jira上說2.0.0修復...

hue介紹系列02 李孟 新浪部落格

配置cd etc hue conf vi hue.ini desktop default hdfs superuser hadoop hdfs管理使用者 desktop http host 10.10.41.123 hue web server所在主機 ip desktop http port 80...