資料倉儲ETL工具箱 清洗和規範化(一)

2021-10-08 13:23:13 字數 1001 閱讀 8773

在etl系統中,資料的抽取和載入只是改變了資料的格式和資料的位置,而真正改變資料價值的恰恰是清洗和規範化的步驟,這對於資料能否用於預期目標起了決定性的作用。清洗和規範化包含三個重要的可提交內容:

關於資料評估報告主要針對的是資料質量,資料質量應該保證資料的精確性,精確的資料意味著:

資料質量子系統為了完成初始化的目標需要支援重要使用者參與者的需求,這些參與者包括:

資料質量系統的目標可以用正確、徹底、快速和透明的優先順序來描述:

確保徹底的含義是資料清洗子系統必須保證在檢測、糾正和文件化發布給業務環境的資訊質量方面的徹底性;確保快速則是整個etl過程必須能在越來越短的時間裡處理不斷增長的資料量;確保正確的資料最好是在源系統抽取時進行,若因業務原因無法做到,則在清洗時要矯正存在的問題;確保透明則是要求資料倉儲必須暴露出錯誤。

以上四方面在資料倉儲中不可能全部達到最優,必然有乙個平衡點,比如速度和完整性如下圖:

書中給出了資料質量問題策略 :

從圖中我們可以看出,在資料源頭處理的資料質量是最高的。

資料清洗子系統在整個etl過程中跟隨在抽取步驟之後,而清洗提交的報告主要有三個比較重要的:

1.資料評估結果:資料評估分析應該充分的根據資料來源分析,而分析的一句就是元資料資料庫的描述方式

√ 結構定義

√ 業務物件

√ 域√ 資料來源

√ 表定義

√ 別名

√ 資料規則

√ 資料值規則

√ 需要處理的問題

2.錯誤事件表:

3.審計維:取得(描述)每乙個事實表記錄的特性資料質量的上下文

資料倉儲ETL工具箱 元資料

由於etl是資料倉儲得核心,時常承擔著管理和儲存資料倉儲大量元資料得職責。在資料倉儲中etl處理程式是元資料最重要得建立者 資料沿襲。資料沿襲追蹤資料從源系統和檔案中得請確位置直到最終被裝載之前。資料血統包括資料庫系統的資料定義和在資料參考古中最終靜止狀態。元資料分為後台元資料和前端元資料,後台元資...

資料倉儲ETL工具 清洗和規範化(二)

在資料體系中,總會有一些資料看起來沒什麼問題,一旦聯絡了上下文或者和其它資料放在一起就會發現資料存在問題,我們稱這樣的資料為異常資料。在監測資料異常時,通常採用一下方式 資料取樣 對有問題的列進行分組,計算該錶的行數,可以使用資料評估工具 約束型別 把各種不同型別的資料質量檢查分為四大型別 列屬性約...

資料倉儲系列之ETL過程和ETL工具

上週因為在處理很多資料來源整合的事情一直沒有更新系列文章,在這週後開始規律更新。在維度建模中我們已經了解資料倉儲中的維度建模方法以及基本要素,在這篇文章中我們將學習了解資料倉儲的etl過程以及實用的etl工具。一 什麼是etl?構建資料倉儲的核心是建模,在資料倉儲的構建中,etl貫穿於專案始終,它是...