ETL的兩種架構(ETL架構和ELT架構)

2022-10-11 01:51:11 字數 1537 閱讀 8961

etl

etl,是英文 extract-transform-load 的縮寫,用來描述將資料從**端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。etl一詞較常用在資料倉儲,但其物件並不限於資料倉儲。

etl是構建資料倉儲的重要一環,使用者從資料來源抽取出所需的資料,經過資料清洗,最終按照預先定義好的資料倉儲模型,將資料載入到資料倉儲中去。

etl在轉化的過程中,主要體現在以下幾方面:

空值處理:可捕獲字段空值,進行載入或替換為其他含義資料,並可根據字段空值實現分流載入到不同目標庫。

規範化資料格式:可實現字段格式約束定義,對於資料來源中時間、數值、字元等資料,可自定義載入格式。

拆分資料:依據業務需求對字段可進行分解。例,主叫號 861082585313-8148,可進行區域碼和**號碼分解。

驗證資料正確性:可利用lookup及拆分功能進行資料驗證。例如,主叫號861082585313-8148,進行區域碼和**號碼分解後,可利用lookup返回主叫閘道器或交換機記載的主叫地區,進行資料驗證。

資料替換:對於因業務因素,可實現無效資料、缺失資料的替換。

lookup:查獲丟失資料 lookup實現子查詢,並返回用其他手段獲取的缺失字段,保證字段完整性。

建立etl過程的主外來鍵約束:對無依賴性的非法資料,可替換或匯出到錯誤資料檔案中,保證主鍵唯一記錄的載入。

etl架構的優勢:

etl可以分擔資料庫系統的負載(採用單獨的硬體伺服器)

etl相對於el-t架構可以實現更為複雜的資料轉化邏輯

etl採用單獨的硬體伺服器。.

etl與底層的資料庫資料儲存無關.

elt

在elt架構中,elt只負責提供圖形化的介面來設計業務規則,資料的整個加工過程都在目標和源的資料庫之間流動,elt協調相關的資料庫系統來執行相關的應用,資料加工過程既可以在源資料庫端執行,也可以在目標資料倉儲端執行(主要取決於系統的架構設計和資料屬性)。當etl過程需要提高效率,則可以通過對相關資料庫進行調優,或者改變執行加工的伺服器就可以達到。一般資料庫廠商會力推該種架構,像oracle和teradata都極力宣傳elt架構。

elt架構的優勢:

elt主要通過資料庫引擎來實現系統的可擴充套件性(尤其是當資料加工過程在晚上時,可以充分利用資料庫引擎的資源)

elt可以保持所有的資料始終在資料庫當中,避免資料的載入和匯出,從而保證效率,提高系統的可監控性。

elt可以根據資料的分布情況進行並行處理優化,並可以利用資料庫的固有功能優化磁碟i/o。

elt的可擴充套件性取決於資料庫引擎和其硬體伺服器的可擴充套件性。

通過對相關資料庫進行效能調優,etl過程獲得3到4倍的效率提公升一般不是特別困難。

BI基本架構和ETL斷想

business intelligence bi data warehouse dw olap data mining dm 商業智慧型 資料倉儲 聯機分析 資料探勘 做bi的目的是幫助使用者進行決策分析,從多維的角度來分析現狀,給決策者做出正確的決策提供可靠的資料基礎與背景,為企業的發展做出正確的...

BI基本架構和ETL的個人理解

轉貼自 http hi.baidu.com cl9998 blog item ea338e86e36aef23c75cc362.html business intelligence bi data warehouse dw olap data mining dm 商業智慧型 資料倉儲 聯機分析 資料...

虛擬化的兩種架構

1.寄居架構 2.原生架構一 寄居架構 虛擬化寄居架構是指在我們真實的作業系統 windows 上安全乙個虛擬化軟體,然後再在虛擬化軟體中安裝虛擬系統。它穩定性不是很高當真實機宕掉後,這上面的虛擬系統都會宕掉。所以這種架構一般用於個人,比如個人搭建測試環境。注 它們之間的順序是 虛擬化系統 依賴 虛...