資料倉儲系統的技術體系架構設計

2021-06-04 00:48:22 字數 1459 閱讀 2156

資料倉儲系統的技術體系架構設計

該資料倉儲系統的主要功能是從眾多外部系統中,採集相關的業務資料,集中儲存到系統的資料庫中。系統內部對所有的原始資料通過一系列處理轉換之後,儲存到資料倉儲的基礎庫中;然後,通過業務需要進行一系列的資料轉換到相應的資料集市,供其他上層資料應用元件進行專題分析。

因此,從資料被採集、轉換、儲存、分析、應用的角度對系統內部技術構件進行抽象,將系統內部分為採集層、處理層、應用層、配置層4個邏輯層次。資料分析系統的技術體系架構如下圖:

在採集層,主要應用介面介面卡、網路檔案採集及轉換器、esb匯流排等技術。

介面介面卡技術,用於適配各專業系統的資料採集介面,通過介面介面卡來遮蔽各專業介面方式的差異性;

網路檔案採集及轉換器,用於從各專業系統的採集檔案資料,主要針對特定格式的各類網路資料檔案,負責對資料格式進行格式化、規範化等預處理;

esb匯流排對標準的webservice/jms介面方式的資料進行採集。

在處理層,主要應用資料持久化、j2ee、bi等技術。

資料持久化主要採用關聯式資料庫技術和檔案資料庫技術。關聯式資料庫技術,用於儲存系統採集、處理、計算等業務資料,儲存系統各類執行引數配置資訊,以及其他的執行過程資訊;檔案伺服器,為各類檔案型資料提供資料儲存和訪問服務;

j2ee技術,是系統中所有b/s邏輯構件、應用程式、web服務的容器,為各種b/s元件提供執行環境,並對其生命週期進行管控;

bi的元資料管理為各類動態統計分析報表的資料聚合、多維分析、資料載入、資料生產、資料項、計算規則、展示方式等提供配置管理。

在應用層,用於人機互動的主要應用bi、web等技術。

web技術,提供系統的b/s介面的應用,包括html、css、js、ajax等;

bi技術,為各類動態統計分析結果提供報表、圖形、儀錶盤等豐富的展示方式;用於系統互動的esb匯流排技術,以資料匯流排的方式發布webservice呼叫、或者下發jms資料,通過統一的資料發布系統為外部系統提供服務資料共享服務。採用第三方標準中介軟體產品來實現,例如:sap的boe(businessobjects enterprise)、ibm的cognos、mstr的microstrategy等主流的bi中介軟體產品。

在配置層,主要應用etl視覺化可配置平台、規則引擎、工作流引擎等技術。

etl視覺化配置技術,用於提供視覺化、可配置的etl資料抽取、轉換、載入的處理,主要針對資料庫資料、ftp標準檔案格式的資料或者經過網路檔案採集及轉換器預處理過的中間資料;

規則引擎部分為採集成各類適配及採集器提供配置資料的集中管理,包括提供介面檔案的採集目錄、檔名規則、資料項約定以及etl資料抽取規則等的配置管理;

工作流引擎,提供從資料採集介面配置、採集資料項、etl引數配置、指標關聯對映、bi引數關聯對映等全過程的流程化配置嚮導。

【宣告】

資料倉儲分層架構設計

大資料資料倉儲是基於hive構建的資料倉儲,分布檔案系統為hdfs,資源管理為yarn,計算引擎主要包括mapreduce tez spark等,分層架構如下 1 資料 層 日誌或者關係型資料庫,並通過flume sqoop kettle等etl工具匯入到hdfs,並對映到hive的資料倉儲表中。2...

資料倉儲分層架構設計

這應該是資料倉儲同學在設計資料分層時首先要被挑戰的問題,類似的問題可能會有很多,比如說 為什麼要做資料倉儲?為什麼要做元資料管理?為什麼要做資料質量管理?當然,這裡我們只聊一下為什麼要做設計資料分層。作為一名資料的規劃者,我們肯定希望自己的資料能夠有秩序地流轉,資料的整個生命週期能夠清晰明確被設計者...

資料倉儲 stg層 資料倉儲架構設計

資料倉儲經過多年的發展,倉庫架構設計也隨之多次調整,框架調整的過程中,寫入層上,lambda 沒有對資料寫入進行抽象,而是將雙寫流批系統的一致性問題反推給了寫入資料的上層應用 儲存上,以 hdfs 為代表的master dataset 不支援資料更新,持續更新的資料來源只能以定期拷貝全量 snaps...