BI基本架構和ETL斷想

2021-05-21 22:58:51 字數 2195 閱讀 3888

business intelligence(bi) = data warehouse(dw) + olap + data mining(dm)

商業智慧型=資料倉儲+聯機分析+資料探勘

做bi的目的是幫助使用者進行決策分析,從多維的角度來分析現狀,給決策者做出正確的決策提供可靠的資料基礎與背景,為企業的發展做出正確的導向。然而在國 內做bi確走入了乙個誤區,通常客戶拿bi當報表系統來用,這有點大才小用的感覺,還有就是各個公司水平不同,常常有個別公司拿著拿著非bi系統來欺騙客 戶給bi蒙上了一層不好的印象,總的來說近兩年bi在國內的發展還是比較順利的,有越來越多的企業和機關來開始做自己的bi系統,比如銀行、稅務、保險等 行業。

bi通常的架構或基本架構是:

源資料->ods->dw->olap->前端。

常用源資料型別:關聯式資料庫、文字資料等。

ods :運算元據儲存(operation data storage)主要用途是將多個資料來源的資料整合到乙個臨時緩衝區中供資料倉儲使用。一般情況下ods的資料不會保留很長時間根據需要1個月或3個月, 如果客戶有查詢要求的話那麼ods可能需要一直保留,通常情況下不用備份。ods乙個好處是在資料倉儲與源資料之間做了乙個緩衝減輕了源系統壓力,我們在用需要操作使用者源系統。比如:我們從源資料向資料倉儲中載入事實表資料時,這時候我們需要進行聚合操作,如果沒有ods層,那麼所有聚合操作的壓力是在源系統完成的,這就會給客戶源系統帶來很大的壓力,這是在專案實施過程中經常遇到的乙個問題。

dw:資料倉儲(data warehouse)簡單說就是儲存事實表和維表資料的資料庫而已。

定義:資料倉儲(data warehouse)是乙個面向主題的(subject oriented)、整合的(integrate)、相對穩定的(non-volatile)、反映歷史變化(time variant)的資料集合,用於支援管理決策。

資料倉儲一般採用業界主流的關聯式資料庫,如oracle、db2、sql server等。

維表:儲存描述事實表中資料特性的表,它儲存使用者分析資料的角度,它給olap提供旋轉、切片的資料基礎。

事實表:儲存經過一定聚集的歷史資料,是星型架構或雪花型架構的中心。每個資料倉儲含有乙個或多個事實表。

事實表包括索引和資料兩部分,索引部分就是描述事實表資料特徵的維表的外來鍵,資料就是事實表中要存放的資料,也就是我們通常說的度量值的**。

olap:聯機分析處理(on-line analytical process)工具有essbase,microsoft analysis等。

olap的基本思想是使企業的決策者應能靈活地操縱企業的資料,以多維的形式從多方面和多角度來觀察企業的狀態、了解企業的變化。使用olap工具我們可以將維表和事實表做相應的連線,然後做聚合操作儲存成cube從而達到多角度分析資料的目的。

前端展示工具:前端展示工具是輔助使用者來多角度,自定義展現報表形式的工具,是對olap工具的乙個不錯,通常olap工具只能做簡單的資料展示,上鑽、下鑽等。前端展示工具可以根據使用者需求展現曲線圖、柄形圖等,通過展示工具我們可以做一些個性化設定,許可權控制等等,常用工具bo,brio,cognos,bi office,值得一提的是bi office是國內一家bi公司的產品,可以是國內前端展示工具的代表。

etl討論:

開發過程中工作量最大的部分也是最難控制部分就是etl,幾乎etl要佔整個系統的40%的工作量。

etl常用工具:data stage、informatic、microsoft dts等。

做etl工作原則:

1、要對源資料有充分了解,這需要業務系統工程師配合。不只要了解所用到源系統表、欄位的意義,還要對資料的質量進行驗證。

2、跟客戶確認髒資料的處理方式(丟棄還是預設其它),這會直接影響到最後報表的誤差率。

3、確認資料存放時長,只有了解資料存放時長,才可以更好的進行事實表的儲存方式(比如分割槽方式等)

4、及時驗證資料的準確性,當我們做了一定的歷史資料抽取後要及時跟客戶驗證資料的準確性,否則等系統上線後發現資料不正確,此時悔之晚矣。

5、確定排程方式,排程不同會影響資料抽取完成時間,比如1周的資料安排在1天排程完成跟分成7次排程的響應時間是完全不同,這要根據應用確定。

6、流程監控與故障處理,這是必不可少的,我們監控etl的允許情況,還有任何程式都不能保證永不出錯,所以我們需要做確保故障出現後能夠彌補。

以上就是在做bi過程中的一些體會,希望對大家有所幫助,有什麼不對的地方請大家指出,希望和大家多多交流。

BI基本架構和ETL的個人理解

轉貼自 http hi.baidu.com cl9998 blog item ea338e86e36aef23c75cc362.html business intelligence bi data warehouse dw olap data mining dm 商業智慧型 資料倉儲 聯機分析 資料...

LTE LTE基本架構

這篇文章主要介紹lte的最基礎的架構,包括lte網路的構成,每乙個網路實體的作用以及lte網路協議棧,最後還包括對乙個lte資料流的模型的說明。這是一張非常有名的lte架構圖,從圖中可以看出,整個網路構架被分為了四個部分,包括由中間兩個框框起來的e utran部分和epc部分,還有位於兩邊的ue和p...

MySql基本架構

mysql基本架構分為server層和儲存引擎 負責連線客戶端與server層,簡單來說就像是乙個登入認證模組,判斷使用者的身份和許可權。mysql會快取我們執行過的select語句,以key value的形式直接放在記憶體中。後續查詢如果命中快取就可以直接拿出快取的結果集而不用去執行後面的複雜操作...