當我們聊資料質量的時候,我們在聊些什麼?

2021-10-14 13:02:26 字數 2684 閱讀 7985

隨著大資料行業的深入發展,資料質量越來越成為乙個繞不開的話題,那當大家在聊資料質量的時候,通常會聊什麼呢?從什麼是資料質量開始。

什麼是資料質量

資料質量:乙個評估規則維度提供一種測量與管理資訊和資料的方式。

區分規則維度有助於:

資料質量檢核主要分為以下規則維度:

每一規則維度可能需要不同的度量方法、時機和流程。這就導致了完成檢核評估所需要的時間、金錢和人力資源會呈現出差異。資料資料質量的提公升不是一蹴而就的,在清楚了解評估每一維度所需工作的情況下,選擇那些當前較為迫切的檢核維度和規則,從易到難、由淺入深的逐步推動資料質量的全面管理與提公升。規則維度的初步評估結果是確定基線,其餘評估則作為繼續檢測和資訊改進的一部分,作為業務操作流程的一部分。

資料完整性

資料完整性維度大類下可細分為以下維度小類:

非空約束比較容易理解,簡單的講就是字段不能為空,檢查方式也比較容易,只需要設定需要檢查的字段,通過 sql 查詢列值不能為空即可。將為空的資料查詢出來進行整改。

當然非空約束可以通過設定非空約束的方式限制資料無法寫入資料庫,如果支援這種方式可以避免事後的資料非空檢查。

資料唯一性

資料唯一性維度大類下可細分為以下維度小類:

舉個簡單的例子,唯一性約束在技術上一般具備唯一的標識字段可以判斷其唯一性,在業務上可以通過幾個關聯的業務屬性對確定唯一業務實體。若在這種情況出現資料重複的問題,即違反了唯一性約束。這種情況的如果是單一的業務主鍵,可以通過對主鍵分組去重的方式檢查,如果是業務聯合屬性判斷唯一實體的情況只能業務人員進行手動檢查。

‍04資料有效性

資料有效性維度大類下可細分為以下維度小類:‍

描述檢核物件的值是否按照一定的要求和規範進行資料的錄入與儲存。

例 1 : 依業務規則性別只有 「0:男」 ,」1:女」,則性別欄位只應出現0或1。

例 2 : 貨幣** (curcode) 只應有rmb或是usd值。

資料質量中**值域首先要指定企業級的統一編碼表,然後按照對照關係進行 etl 轉換,至於出報告只需要通過 sql 查詢不再範圍內的數值就可以了。

描述檢核物件的長度是否滿足長度約束。

例如身份證號是 18 位。

長度約束可以通過建表時指定字元長度去限制,如果業務系統最初沒有做限制,只能通過 sql 判斷長度的方式獲取異常值再進行處理。

例如:餘額或者日期等一般都會按照固定型別儲存,如果最初設計為字元型後續應按照對應型別調整。

首先這種情況最好一開始就建立好統一規範,按照業務含義去指定技術型別。如果最初做的不好,可以通過型別進行資料探查,對資料統一格式化。

例如:餘額不能為負數,日期不能為負數等等。

如果業務初始沒有做限制,只能通過 sql 去對資料過濾查詢,對有問題資料集中 etl 處理。

資料一致性

一般指外來鍵關聯的場景。例如:保單表,理賠表的保單號存在保單主表,同一張表,兩個字段之間的關聯關係。

主要是強調業務的關聯性,乙個狀態發生了則某個值一定會如何。

例如:投保狀態為已投保,則投保日期不應為空;

例如:投保開始時間小於等於投保結束時間

資料準確性

資料準確性主要是指取值的準確性,描述該檢核物件是否與其對應的客觀實體的特徵相一致。

例如:投保人的性別**為0-女性,雖然滿足**值域約束,但卻不滿足取值準確性約束,因為該人為男性,其性別**應為1-男性

再如:國際保函業務的手續費應錄入為國際擔保手續費收入,卻錄入成國內擔保手續費收入

準確性要求不僅資料的取值範圍和內容規範滿足有效性的要求,其值也是客觀真實世界的資料。由此可見,有效的資料未必是準確的,反之成立。

準確性通常需要業務人員或其他當事人手工核查。

對待這種情況,資料質量規則沒辦法直接統一處理,只能通過即使查詢的方式對資料結果進行詳細核查。

資料及時性

例如:系統中貸款五級分類的分模擬實際中的延遲幾天變化;再如理財業務在理財系統中是成功狀態,但在核心系統中卻因通訊的原因而沒有入賬。

及時性由於多個系統、通訊等原因而造成,通常需要業務人員或系統人員手工核查。

一般來說資料同步都是基於業務系統的落表技術字段(比如:create_dt),而真是業務發生的時間可能與該字段存在時間間隔。可以通過簡單的sql對兩個時間比較,判斷資料的及時性是否符合需求。

資料可信性

資料可信性約束:描述再資料同步中每日/月增量資料是否符合理論的經驗值。

例如:保單資料的每日分割槽資料較前日一般有 10% 增長,突然資料增長變為200%,這種情況有可能時資料同步出現問題。

再如:每月的營收總額一般都按一定規律**,突然資料波動較大則一般都可能出現問題。

可信性要求資料的總量波動符合基本客觀規律,一般通過對 7,15,30 日資料進行比較,如果出現差距較大則進行詳細的問題探查。 往期閱讀《資料質量:資料治理的核心》

當我們在聊監控,我們在聊什麼?

最近在團隊中給大家做了乙個分享,泛泛地聊了一些有關 監控 的話題。其實做分享對分享者的作用往往大於參與者。這是一次將自己知識的梳理的過程,於是我將這次分享整理成這篇文章。201706 stock exchange.png 我們先來聊聊,什麼是 監控 以及我們期望通過 監控 完成哪些目的?傳統意義上的...

當我們在談進製的時候,我們在談什麼

關於進製,前幾天一朋友詢問二進位制和十六進製制的區別。遂在此總結一下關於進製的相關知識,回憶一下計算機的基礎內容,也幫朋友更好的理解一下。進製是一種記數方式,亦稱進製計數法或位值計數法。利用這種記數法,可以使用有限種數字符號來表示所有的數值。一種進製中可以使用的數字符號的數目稱為這種進製的基數或底數...

當我們學OC的時候,我們在學什麼

實現部分 成員變數 屬性 init,self,super 擴充套件 件 import 引入標頭檔案,與c語言類似 ns assume nonnull begin ns assume nonnull beginns assume nonnull end。在這兩個巨集之間的 所有簡單指標物件都被假定為n...