資料倉儲中資料質量保證的常用方法

2021-10-01 20:45:10 字數 936 閱讀 3691

一、資料摸底,資料調研

對於業務庫中的資料要弄清表裡欄位的型別以及comment釋義,以及字段出現null或者comment釋義之外的碼值的原因,與開發和業務溝通判斷是否需要補充還是過濾

二、模型的選擇

現在我自己常用的是拉鍊和快照,首先這是根據業務以及資料規模的大小確定的,不管是那種模型,我們都應該支援回溯歷史,也就是可重複執行。

一、比較行數是否一致

一般我們會比較etl操作之後行數是否一致的情況,如果出現不一致要進行明細的比較,看缺失的資料的原因

select

count(1

)from

table a

二、判斷是否主鍵重複

主鍵重複是很常見的資料質量問題

select

count(1

),count

(distinct id)

from

table a

三、判斷某個欄位的條數是否一致

這種情況一般是判斷一些權重比較高的字段的條數經過etl後是否一致

select ***,

count(1

)from

table

group

by1

四、判斷組合欄位的條數是否一致

同上,只是判斷多個常用的維度組合

select ***,***,

count(1

)from

table

groupby1

,2

常用的目前就更新這些,後續會繼續更新

資料質量保證和資料質量檢測

資料質量保證和資料質量檢測 資料質量保證 無論是檢測原始庫或者是資料倉儲,都是要有乙個有質量保證的資料庫。以檢測資料倉儲的質量為例 原始資料在抽取進入資料倉儲後,通過檢測資料倉儲質量問題來修正原始庫,從新抽取進入資料倉儲。檢測資料倉儲的資料質量 第一層 保證資料的正確性,全面性,唯一性 第二層 進行...

資料質量保證若干步驟

1 管理層面 資料質量標準 完整性 唯一性 有效性 一致性 正確性 資料質量針對具體的資料內容,進行資料內容進行系統檢查 2 業務層面 資料質量關鍵物件 ctq 業務上最重要的部分對應的資料 對已發現的問題進行訪談調查,資料剖析 資料概要分析,對資料來源表中值進行系統化的預先分析,可以幫助發現業務的...

資料倉儲 資料質量監控

為什麼要做資料質量管理?提前發現問題,然後去解決,讓資料更好的服務於業務。什麼時候開始做呢?搭建數倉過程中,就要開始做 資料質量管理。要先行 不能後做。資料質量是資料驅動決策的前提 資料質量需要關注的四個點 即完整性 準確性 一致性和及時性 完整性是指資料的記錄和資訊是否完整。一般會在資料接入的時候...