資料倉儲構建步驟

2021-06-18 01:10:14 字數 1331 閱讀 4729

構建企業級資料倉儲五步法:

一、確定主題

即確定資料分析或前端展現的主題(例:某年某月某地區的啤酒銷售情況)。主題要體現出某一方面的各分析角度(維度)和統計數值型資料(量度)之間的關係,確定主題時要綜合考慮.

二、確定量度kpi

確定主題後,需要考慮分析的技術指標(例:年銷售額等等)。它們一般為資料值型資料,其中有些度量值不可以彙總;些可以彙總起來,以便為分析者提供有用的資訊。量度是要統計的指標,必須事先選擇恰當,基於不同的量度可以進行複雜關鍵性指標(kpi)的設計和計算。

三、確定事實資料粒度

確定量度之後,需要考慮該量度的彙總情況和不同維度下量度的聚合情況.例如在業務系統中資料最小記錄到秒,而在將來分析需求中,時間只要精確到天就可以了,在etl處理過程中,按天來彙總資料,些時資料倉儲中量度的粒度就是」天」。如果不能確認將來的分析需求中是否要精確的秒,那麼,我們要遵循」最小粒度原則」,在資料倉儲中的事實表中保留每一秒的資料,從而在後續建立多維分析模型(cube)的時候,會對資料提前進行彙總,保障產生分析結果的效率。

四、確定維度

維度是分析的各個角度.例:我們希望按照時間,或者按照地區,或者按照產品進行分析。那麼這裡的時間,地區,產品就是相應的維度。基於不同的維度,可以看到各個量度彙總的情況,也可以基於所有的維度進行交叉分析。

維度的層次(hierarchy)和級別(level)。例:在時間維度上,按照」度-季度-月」形成了乙個層次,其中」年」,」季度」,」月」成為了這個層次的3個級別。我們可以將「產品大類-產品子類-產品」劃為乙個層次,其中包含「產品大類」、「產品子類」、「產品」三個級別。

我們可以將3個級別設定成一張資料表中的3個字段,比如時間維度;我們也可以使用三張表,分別儲存產品大類,產品子類,產品三部分資料,比如產品維度。

建立維度表時要充分使用**鍵.**鍵是資料值型的id號碼(每張表的第乙個字段),它唯一標識了第一維度成員。在聚合時,數值型字段的匹配和比較,join效率高。同時**鍵在緩慢變化維中,起到了對新資料與歷史資料的標識作用。

五、建立事實表

在確定好事實資料和維度後,將考慮載入事實表。業務系統的的一筆筆生產,交易記錄就是將要建立的事實表的原始資料.

我們的做法是將原始表與維度表進行關聯,生成事實表。關聯時有為空的資料時(資料來源髒),需要使用外連線,連線後將各維度的**鍵取出放於事實表中,事實表除了各維度**鍵外,還有各度量資料,不應該存在描述性資訊。

事實表中的記錄條資料都比較多,要為其設定復合主鍵各蛇引,以實現資料的完整性和基於資料倉儲的查詢效能優化。

基於 Hive 構建資料倉儲

設想有一批各種型別的離線 或實時 資料 文字 csv excel 等 我們如何挖掘這些資料背後的價值,分析這些資料之間的關聯?很容易想到的就是,寫程式把每種資料按照某種規則抽取出來放到關係型資料庫中進行分析。這樣做可能存在什麼樣的問題?按照某種規則進行抽取,是否會導致原始資料資訊的丟失?因為前期設計...

資料倉儲維度建模步驟

在商業智慧型專案的實施過程中,維度建模技術和企業資料倉儲建模是兩種不同的方 以下是以應用驅動 提供快速原型的商業智慧型專案的實施和規劃過程中使用的維度建模方法時的標準實施過程。具體到專案中則根據專案的規模及所涉及的業務範圍而有所補充或裁減。1.商業智慧型專案規劃 a 資料倉儲專案的定義及範圍 b 專...

資料倉儲專案的步驟

一 技術方案和概念驗證。根據客戶的需求,畫demo看是否與需求吻合。初步設計階段是多選方案階段,技術設計階段主要還是功能性的實現。二 需求階段 需求訪談,需求報告輸出 第一次評審,需求最後一次評審,產物是需求文件 主題,指標,維度,展現格式等功能性需求和非功能性需求 三 源系統資料分析和源系統分析,...