BI基本架構和ETL的個人理解

2021-05-05 14:44:22 字數 2180 閱讀 3440

轉貼自 http://hi.baidu.com/cl9998/blog/item/ea338e86e36aef23c75cc362.html

business intelligence(bi) = data warehouse(dw) + olap + data mining(dm)

商業智慧型=資料倉儲+聯機分析+資料探勘

做bi的目的是幫助使用者進行決策分析,從多維的角度來分析現狀,給決策者做出正確的決策提供可靠的資料基礎與背景,為企業的發展做出正確的導向。然而在國內做bi確走入了乙個誤區,通常客戶拿bi當報表系統來用,這有點大才小用的感覺,還有就是各個公司水平不同,常常有個別公司拿著拿著非bi系統來欺騙客戶給bi蒙上了一層不好的印象,總的來說近兩年bi在國內的發展還是比較順利的,有越來越多的企業和機關來開始做自己的bi系統,比如銀行、稅務、保險等行業。

bi通常的架構或基本架構是:

源資料->ods->dw->olap->前端。

常用源資料型別:關聯式資料庫、文字資料等。

ods :運算元據儲存(operation data storage)主要用途是將多個資料來源的資料整合到乙個臨時緩衝區中供資料倉儲使用。一般情況下ods的資料不會保留很長時間根據需要1個月或3個月,如果客戶有查詢要求的話那麼ods可能需要一直保留,通常情況下不用備

份。ods乙個好處是在資料倉儲與源資料之間做了乙個緩衝減輕了源系統壓力,我們在用需要操作使用者源系統。比如:我們從源資料向資料倉儲中載入事實表資料時,這時候我們需要進行聚合操作,如果沒有ods層,那麼所有聚合操作的壓力是在源系統完成的,這

就會給客戶源系統帶來很大的壓力,這是在專案實施過程中經常遇到的乙個問題。

dw:資料倉儲(data warehouse)簡單說就是儲存事實表和維表資料的資料庫而已。

定義:資料倉儲(data warehouse)是乙個面向主題的(subject oriented)、整合的(integrate)、相對穩定的(non-volatile)、反映歷史變化(time variant)的資料集合,用於支援管理決策。

資料倉儲一般採用業界主流的關聯式資料庫,如oracle、db2、sql server等。

維表:儲存描述事實表中資料特性的表,它儲存使用者分析資料的角度,它給olap提供旋轉、切片的資料基礎。

事實表:儲存經過一定聚集的歷史資料,是星型架構或雪花型架構的中心。每個資料倉儲含有乙個或多個事實表。

事實表包括索引和資料兩部分,索引部分就是描述事實表資料特徵的維表的外來鍵,資料就是事實表中要存放的資料,也就是我們通常說的度量值的**。

olap:聯機分析處理(on-line analytical process)工具有essbase,microsoft analysis等。

olap的基本思想是使企業的決策者應能靈活地操縱企業的資料,以多維的形式從多方面和多角度來觀察企業的狀態、了解企業的變化。使用olap工具我們可以將維表和事實表做相應的連線,然後做聚合操作儲存成cube從而達到多角度分析資料的目的。

前端展示工具:前端展示工具是輔助使用者來多角度,自定義展現報表形式的工具,是對olap工具的乙個不錯,通常olap工具只能做簡單的資料展示,上鑽、下鑽等。前端展示工具可以根據使用者需求展現曲線圖、柄形圖等,通過展示工具我們可以做一些個性化設

置,許可權控制等等,常用工具bo,brio,cognos,bi office,值得一提的是bi office是國內一家bi公司的產品,可以是國內前端展示工具的代表。

etl討論:

bi開發過程中工作量最大的部分也是最難控制部分就是etl,幾乎etl要佔整個系統的40%的工作量。

etl常用工具:data stage、informatic、microsoft dts等。

做etl工作原則:

1、要對源資料有充分了解,這需要業務系統工程師配合。不只要了解所用到源系統表、欄位的意義,還要對資料的質量進行驗證。

2、跟客戶確認髒資料的處理方式(丟棄還是預設其它),這會直接影響到最後報表的誤差率。

3、確認資料存放時長,只有了解資料存放時長,才可以更好的進行事實表的儲存方式(比如分割槽方式等)

4、及時驗證資料的準確性,當我們做了一定的歷史資料抽取後要及時跟客戶驗證資料的準確性,否則等系統上線後發現資料不正確,此時悔之晚矣。

5、確定排程方式,排程不同會影響資料抽取完成時間,比如1周的資料安排在1天排程完成跟分成7次排程的響應時間是完全不同,這要根據應用確定。

6、流程監控與故障處理,這是必不可少的,我們監控etl的允許情況,還有任何程式都不能保證永不出錯,所以我們需要做確保故障出現後能夠彌補

BI基本架構和ETL斷想

business intelligence bi data warehouse dw olap data mining dm 商業智慧型 資料倉儲 聯機分析 資料探勘 做bi的目的是幫助使用者進行決策分析,從多維的角度來分析現狀,給決策者做出正確的決策提供可靠的資料基礎與背景,為企業的發展做出正確的...

Magento的基本架構解析

magento 是在zend框架基礎上建立起來的,這點保證了 的安全性及穩定性。選擇zend的原因有很多,但是最基本的是因為 zend框架提供了物件導向的 庫並且有很好的團隊支援。通過這個框架,magento 主要圍繞三個基本點建立 靈活性 我們相信每乙個解決方案都像它的商務支援一樣是獨一無二的。m...

ETL的兩種架構(ETL架構和ELT架構)

etl etl,是英文 extract transform load 的縮寫,用來描述將資料從 端經過抽取 extract 轉換 transform 載入 load 至目的端的過程。etl一詞較常用在資料倉儲,但其物件並不限於資料倉儲。etl是構建資料倉儲的重要一環,使用者從資料來源抽取出所需的資料...