資料倉儲系列之ETL過程和ETL工具

2022-07-04 05:54:10 字數 1334 閱讀 5687

上週因為在處理很多資料來源整合的事情一直沒有更新系列文章,在這週後開始規律更新。在維度建模中我們已經了解資料倉儲中的維度建模方法以及基本要素,在這篇文章中我們將學習了解資料倉儲的etl過程以及實用的etl工具。

一、什麼是etl?

構建資料倉儲的核心是建模,在資料倉儲的構建中,etl貫穿於專案始終,它是整個資料倉儲的生命線。從資料來源中抽取資料,然後對這些資料進行轉化,最終載入到目標資料庫或者資料倉儲中去,這也就是我們通常所說的 etl 過程(extract,transform,load)。

通常資料抽取工作分抽取、清洗、轉換、裝載幾個步驟:

抽取主要是針對各個業務系統及不同伺服器的分散資料,充分理解資料定義後,規劃需要的資料來源及資料定義,制定可操作的資料來源,制定增量抽取和緩慢漸變的規則。

清洗主要是針對系統的各個環節可能出現的資料二義性、重複、不完整、違反業務規則等資料質量問題,允許通過資料抽取設定的資料質量規則,將有問題的記錄先剔除出來,根據實際情況調整相應的清洗操作。

轉換主要是針對資料倉儲建立的模型,通過一系列的轉換來實現將資料從業務模型到分析模型,通過etl工具視覺化拖拽操作可以直接使用標準的內建**片段功能、自定義指令碼、函式、儲存過程以及其他的擴充套件方式,實現了各種複雜的轉換,並且支援自動分析日誌,清楚的監控資料轉換的狀態並優化分析模型。

裝載主要是將經過轉換的資料裝載到資料倉儲裡面,可以通過直連資料庫的方式來進行資料裝載,可以充分體現高效性。在應用的時候可以隨時調整資料抽取工作的執行方式,可以靈活的整合到其他管理系統中。

二、   資料倉儲etl工具有哪些?

etl過程我們簡單介紹了一下,接下來我們來了解市面上資料倉儲解決方案。以下五種etl工具是我基本接觸過的產品,個人根據產品對應官網以及提供的資料總結,對比的五種etl工具(sedwa、kettle、oraclegoldengate、informatica、talend)的比較,目前對於這些工具也是初步了解,後續根據實際的體驗學習後再來進一步總結豐富對比維度資訊。注意工具排名不分先後,個人認為技術沒有絕對的好壞,關鍵是看大家使用的場景。實際工作中選購滿足公司需要的產品即可。

掃碼**:

資料倉儲 ETL

etl這個過程可以說下整套資料流程下來最枯燥也是最耗時間的流程,但是也是最重要的。很多時候我們不缺資料,缺的是好資料,而etl的結果則導致下游成員的資料質量。etl是貫穿數倉的整個環節,不是說只是在某乙個地方才使用的。etl工作的實質就是從各個資料來源提取資料,對資料進行轉換,並最終載入填充資料到資...

資料倉儲之ETL導讀

etl是資料抽取 extract 轉換 transform 載入 load 的簡寫,它是將oltp系統中的資料經過抽取,並將不同資料來源的資料進行轉換 整合,得出一致性的資料,然後載入到資料倉儲中。簡而言之etl是完成從 oltp系統到olap系統的過程。看過這樣一本書,將etl比作餐館的後廚,後廚...

資料倉儲之ETL實戰

etl,extraction transformation loading的縮寫,中文名稱為資料抽取 轉換和載入。一般隨著業務的發展擴張,產線也越來越多,產生的資料也越來越多,這些資料的收集方式 原始資料格式 資料量 儲存要求 使用場景等方面有很大的差異。作為資料中心,既要保證資料的準確性,儲存的安...