資料倉儲ETL工具 清洗和規範化(二)

2021-10-08 13:33:33 字數 1162 閱讀 9112

在資料體系中,總會有一些資料看起來沒什麼問題,一旦聯絡了上下文或者和其它資料放在一起就會發現資料存在問題,我們稱這樣的資料為異常資料。

在監測資料異常時,通常採用一下方式:

資料取樣:對有問題的列進行分組,計算該錶的行數,可以使用資料評估工具

約束型別:把各種不同型別的資料質量檢查分為四大型別

√ 列屬性約束:保證由源系統輸入的資料報含系統的期望值,列屬性約束檢查的過濾器包括:檢查列的空值、超出期望的最高和最低範圍的數值、長度超長和超短的列、包含有效值列表之外的數值、匹配所需的格式或一組格式、在已知的錯誤值列表中命中數、拼寫檢查器

√ 結構約束:對列之間的關係進行約束,也檢查層次間的父子關係

√ 資料約束:業務規則約束或邏輯檢測

√ 值約束:一般採用在表中單獨加標記列,標記錯誤狀態或次數

資料質量處理的整個流程如下圖:

資料清洗子系統的處理流程目標是觸發可以並行執行的批過濾器,這些過濾器識別出資料質量問題,並在錯誤事件事實表中插入記錄。資料清洗子系統完成清洗處理並規範化記錄後,還需要為審計維給出整個資料質量得分。

書中建議的執行過濾器的方法是建立乙個通用的軟體模型,可以執行任何過濾器,只需要設定批處理id和過濾器**鍵作為引數即可。資料清洗子系統在記錄資料質量錯誤時應該持續執行,不能跳過記錄或者停止etl系統,因此資料清洗子系統必須提供一些處理意想不到情況的機制。在此,又提到了資料質量、系統可信性的平衡關係。在執行過濾器前,應該要先建立乙個全域性的資料評估基本規則,其中包括定義無效值、數字列的範圍,字元列長度限制以及表大小等屬性限制。乙個資料評估的檢查列表應該包括:

資料整合意味著建立規範化的維,以及通過組合來自多個資料來源的最有效資訊為乙個綜合的檢視來建立的事實實力。按照標準化、匹配和刪除重覆記錄、生存三個構建規範化維和事實的步驟來描述。

規範化維和規範化事實是對於從多個分離的事實表組合資料的終端使用者應用來說,我們必須為這些事實表提供統一的介面,這樣資料才可以被整合。規範化為對於每乙個可以被關聯的事實表來說都是相同的。在實際環境中,經常需要規範化的維包括:客戶維、產品維、地理維、**維和日期維等。資料倉儲設計團隊的主要職責是建立、發布、維護和約束規範化維。大多數規範化維很自然的被定義成原子級別。客戶維和產品維使用最小粒度以便與原系統的條目對應。日期維的力度通常為天。

資料倉儲ETL工具箱 清洗和規範化(一)

在etl系統中,資料的抽取和載入只是改變了資料的格式和資料的位置,而真正改變資料價值的恰恰是清洗和規範化的步驟,這對於資料能否用於預期目標起了決定性的作用。清洗和規範化包含三個重要的可提交內容 關於資料評估報告主要針對的是資料質量,資料質量應該保證資料的精確性,精確的資料意味著 資料質量子系統為了完...

資料倉儲系列之ETL過程和ETL工具

上週因為在處理很多資料來源整合的事情一直沒有更新系列文章,在這週後開始規律更新。在維度建模中我們已經了解資料倉儲中的維度建模方法以及基本要素,在這篇文章中我們將學習了解資料倉儲的etl過程以及實用的etl工具。一 什麼是etl?構建資料倉儲的核心是建模,在資料倉儲的構建中,etl貫穿於專案始終,它是...

系統開發 資料倉儲ETL流程規範

專案組希望我出乙個etl的規範,憑著自己的感覺和經驗總結了一些步驟,我還會不斷改進。本etl流程規範試圖建立乙個通用的etl流程開發規範,針對不同專案組的實際情況,可自行進行逐步的完善和修改。本流程應該是在需求分析階段結束後實施。etl 流程 可以把etl分為五個階段,按照開發的順序分 1 準備階段...