etl構建資料倉儲五步法 資料倉儲建模篇

2021-10-14 00:22:12 字數 3989 閱讀 8394

1、什麼叫資料倉儲?資料倉儲的特點?

首先,用於支援決策,面向分析型資料處理,它不同於企業現有的操作型資料庫;

其次,對多個異構的資料來源有效整合,整合後按照主題進行了重組,幷包含歷史資料,而且存放在資料倉儲中的資料一般不再修改。資料倉儲是乙個面向主題的(subject oriented)、整合的(integrate)、相對穩定的(non-volatile)、反映歷史變化(time variant)的資料集合,它用於支援企業或組織的決策分析處理。

2、資料倉儲和資料庫有什麼區別?

事務性資料庫和決策支援資料庫的區別,當然包括目標、用途、設計等等

1.資料是面向事務處的,資料是由日常的業務產生的,常更新;資料倉儲是面向主題的,資料**於資料庫或檔案,經過一定的規則轉換得到,用來分析的。

2.資料庫一般是用來儲存當前交易資料;資料倉儲儲存一般儲存的是歷史資料

3.資料庫的設計一般是符合三正規化的,有最大的精確度和最小的冗餘度,有利於資料的插入;資料倉儲的設計一般是星型的,有利於查詢

3、資料倉儲的基本架構是什麼?

資料來源,etl,data stage,ods,data warehouse,datamart,olap等等。
1.資料來源資料倉儲系統的資料源泉,通常包括企業各類資訊,包括存放於rdbms中的各種業務處理資料和各類文件資料;各類法律法規、市場資訊和競爭對手的資訊等等。2.資料的儲存與管理資料的儲存和管理是整個資料倉儲的核心,是關鍵。資料倉儲的組織管理方式決定了它有別於傳統資料庫,同時也決定了其對外部資料的表現形式。

從資料倉儲的技術特點著手分析,來決定採用什麼產品和技術來建立資料倉儲,然後針對現有各業務系統的資料,進行抽取、清理,並有效整合,按照主題進行組織。

資料倉儲按照資料的覆蓋範圍可以分為企業級資料倉儲部門級資料倉儲(通常稱為資料集市)。3.olap伺服器對需要的資料進行有效整合,按多維模型予以組織,以便進行多角度、多層次的分析,並發現趨勢。4.前端工具主要包括各查詢工具、資料分析工具、資料探勘工具、報表工具以及各種基於資料倉儲或資料集市的應用開發工具。

資料分析工具主要針對olap伺服器。報表工具、資料探勘工具主要針對資料倉儲。

4、模型設計的思路、業務需求與資料驅動

構造資料倉儲有兩種方式:bill inmon先生推崇「自上而下」的方式,即乙個企業建立唯一的資料中心,就像乙個資料的倉庫,其中資料是經過整合、經過清洗、去掉髒資料的、標準的,能夠提供統一的檢視。要建立這樣的資料倉儲,並不從它需要支援哪些應用入手,而是要從整個企業的環境入手,分析其中的概念,應該有什麼樣的資料,達成概念完成整。

ralph kimball先生推崇「自下而上」的方式,他認為建設資料倉儲應該按照實際的應用需求,載入需要的資料,不需要的資料不要載入到資料倉儲中。這種方式建設週期較短,客戶能夠很快看到結果。

二者都要達到同乙個目標:企業級資料倉儲。實際上在建設資料倉儲的時候,一般都參照這兩種方式結合使用沒有硬性規定。

5、模型設計的步驟

構建企業級資料倉儲五步法:1.確定主題確定資料分析或前端展現的主題。主題要體現出某一方面的各分析角度(維度)和統計數值型資料(量度)之間的關係,確定主題時要綜合考慮。2.確定量度確定主題後,需要考慮分析的技術指標。它們一般為資料值型資料,其中有些度量值不可以彙總;有些可以彙總起來,以便為分析者提供有用的資訊。

量度是要統計的指標,必須事先選擇恰當,基於不同的量度可以進行複雜關鍵性指標(kpi)的設計和計算。3.確定事實資料粒度確定量度之後,需要考慮該量度的彙總情況和不同維度下量度的聚合情況

例如:在業務系統中資料最小記錄到秒,而在將來分析需求中,時間只要精確到天就可以了。
在etl處理過程中,按天來彙總資料,這時資料倉儲中量度的粒度就是」天」。如果不能確認將來的分析需求中是否要精確的秒,那麼,我們要遵循」最小粒度原則」

在資料倉儲中的事實表中保留每一秒的資料,從而在後續建立多維分析模型(cube)的時候,會對資料提前進行彙總,保障產生分析結果的效率。4.確定維度維度是分析的各個角度

例如:我們希望按照時間,或者按照地區,或者按照產品進行分析。那麼這裡的時間,地區,產品就是相應的維度。
基於不同的維度,可以看到各個量度彙總的情況,也可以基於所有的維度進行交叉分析。維度的層次(hierarchy)和級別(level)。
例如:在時間維度上,按照」度-季度-月」形成了乙個層次,其中」年」 ,」季度」 ,」月」成為了這個層次的3個級別。我們可以將「產品大類-產品子類-產品」劃為乙個層次,其中包含「產品大類」、「產品子類」、「產品」三個級別。
我們可以將3個級別設定成一張資料表中的3個字段,比如時間維度;我們也可以使用三張表,分別儲存產品大類,產品子類,產品三部分資料,比如產品維度。

建立維度表時要充分使用**鍵。**鍵是資料值型的id號碼(每張表的第乙個字段),它唯一標識了第一維度成員。

在聚合時,數值型字段的匹配和比較,join效率高。同時**鍵在緩慢變化中,起到了對新資料與歷史資料的標識作用。5.建立事實表在確定好事實資料和維度後,將考慮載入事實表交易記錄就是將要建立的事實表的原始資料。

我們的做法是將原始表與維度表進行關聯,生成事實表。關聯時空的資料需要使用外連線,連線後將各維度的**鍵取出放於事實表中,事實表除了各維度**鍵外,還有各度量資料,不應該存在描述性資訊。事實表中的記錄條資料都比較多,要為其設定復合主鍵建立索引,以實現資料的完整性和基於資料倉儲的查詢效能優化。

etl構建資料倉儲五步法 資料倉儲 ETL

資料倉儲是由外部多個資料來源彙總整合的,整合 這個詞代表並不是簡單的堆積,而是需要進行一些邏輯處理,數倉的整合就是這樣,因為外部資料來源都是異構的,所以需要做很多任務作才可以進行整合,這些工作包括但不限於 欄位的意義統一,輕度統計等。抽取資料 有如下策略 時間戳判斷 掃瞄增量檔案 日誌檔案,審計檔案...

etl構建資料倉儲五步法 ETL構建資料倉儲五步法

精品資料推薦 etl構建資料倉儲五步法 在資料倉儲構建中,etl貫穿於專案始終,它是整個資料倉儲的生命線,包括了從資料清洗,整合,到轉換,載入等的各個過程,如果說資料倉儲是一座大廈,那 麼etl 就是大廈的根基,etl抽取整合資料的好壞直 接影響到最終的結果展現。所以etl 在整個資料倉儲專案中起著...

構建企業級資料倉儲的五步法

一.確定主題 即確定資料分析或前端展現的主題 例如 某年某月某地區的啤酒銷售情況 主題要體 現出某一方面的各分析角度 維度 和統計數值型資料 量度 之間的關係,確定主題時要 綜合考慮.二.確定量度 確定主題後,需要考慮分析的技術指標 例如 年銷售額等 它們一般為數值型資料,其中有些度量值不可以彙總 ...