資料質量管理(二)

2022-05-04 00:57:06 字數 2351 閱讀 6267

談資料質量管理,我們首先要繞開類似bi或mdm系統,首先看下對標準的資料質量管理的一下闡述。

資料質量管理(data quality

management),是指對資料從計畫、獲取、儲存、共享、維護、應用、消亡生命週期的每個階段裡可能引發的各類資料質量問題,進行識別、度量、監控、預警等一系列管理活動,並通過改善和提高組織的管理水平使得資料質量獲得進一步提高。

資料質量的評估維度主要包括如下幾個方面的內容:

1.完整性 completeness:完整性用於度量哪些資料丟失了或者哪些資料不可用。

2.規範性 conformity:規範性用於度量哪些資料未按統一格式儲存。

3.一致性 consistency:一致性用於度量哪些資料的值在資訊含義上是衝突的。

4.準確性 accuracy:準確性用於度量哪些資料和資訊是不正確的,或者資料是超期的。

5.唯一性 uniqueness:唯一性用於度量哪些資料是重複資料或者資料的哪些屬性是重複的。

6.關聯性 integration:關聯性用於度量哪些關聯的資料缺失或者未建立索引。

而以上這些內容我們在做mdm主資料管理系統的資料質量管理模組,包括實施etl工具裡面的資料轉換和清洗等時候,都是需要考慮和支援的內容。

而對於資料質量管理,應該是覆蓋資料生老病死的全生命週期管理,為了方便重點談下常見的兩個實施資料質量管理的階段,乙個是借助etl工具實現的資料採集和整合階段,乙個是日常實時進行的資料檢查和審核。下面就這兩個常見階段分開再來談下。

資料採集和整合階段

現在的etl操作很多已經轉變為了elt操作,即我們說的transform轉換這塊的內容有些事在etl傳輸過程中完成,而有些已經轉變到資料採集到目標資料庫後再在目標資料庫端完成資料轉換。

注意轉換的作用更多的是將資料標準化和規範化,比如通過轉換和對映,將名稱轉換為**,將長度不足的內容不足長度,或者做兩個資料項內容的合併等,這些都是可以在轉換的時候執行的事情。

資料唯一性裡面有乙個重點就是去重和去相似性,對於去重我們可以在etl工具裡面通過轉換配置完成,而對於去相似性往往則需要後續資料採集完成後編寫獨立的**或指令碼來分析相似性資料,並通過手工確認後再完成去除相似性資料或對資料進行合併操作。

一類主資料往往涉及到多張表,比如**商主資料,涉及到基本資訊,聯絡人資訊,賬號資訊等多個子物件。這些子物件可以是一種層次關係,也可以是一種關聯關係。這個我們在進行主資料物件和關聯關係定義的時候會詳細定義。這種關聯性帶來的就是參照完整性約束,比如**商聯絡人資訊在,但是對應的**商頭找不到了,對於這種資料不能再etl上完成處理,但是可以通過指令碼找出這種異常資料並手工處理和清洗。

日常進行的資料檢查

主資料本身也是不斷在增加,因此在資料清洗初始化完成,主資料平台開始正常執行後,我們還需要對主資料內容進行日常的資料檢查和管控。這也是資料質量管理的乙個重要內容。

對於日常資料檢查和審計,整體的步驟可以考慮為

1. 定義資料檢查規則,包括單錶屬性檢查,單錶跨行重複檢查,多表關聯依賴檢查,多表一致性檢查

2. 定義檢查任務和檢查單

3. 將檢查單配置為一種計畫排程,自動定期按時執行

4. 檢視資料檢查報表,對於異常資料進行手工處理或自動化處理

前面已經談到過的資料準確性,唯一性,資料的重複或相似等檢查也都可以在這個階段做。同時我們看到還有乙個核心工作,即資料本身的一致性檢查和資料審核。

比如從兩個系統都採集到**商資料,如何去匹配和檢查兩個系統的**商資料的差異和一致性,這就需要有獨立的資料審核功能。資料審核首先對資料物件有唯一的匹配關鍵字,其次是定義需要進行資料審核的字段。對於a和b兩個資料表而言,常見的資料審核和比對結果主要包括如下幾個方面。

1. a和b兩個表哪些資料是完全相同的?

2. 哪些資料a表有,b表沒有,或者相反。

3. 哪些資料a和b兩個都有,但是存在資料項內容不一致的情況。

以上就是最簡單的資料審核,對於資料審核的結果首先是可以由系統觸發自動化的進行再次的資料同步和整合,包括資料整合過程中的清洗和轉換;其次可以輸出資料審核報表,供業務人員手工處理異常資料。

最後再強調下雖然說資料質量管理是乙個全生命週期的事情,但是資料質量真正要提公升一定不是事後進行資料檢查和審核,而是真正從產生資料問題的源頭抓起。比如解決資料來源多個多點錄入問題,解決同樣的資料可以在多個系統發起修改的問題,解決資料模型中定義的資料約束在資料錄入的時候沒有進行完整性控制的問題等。

資料質量管理

常見的資料質量問題包括 通過資料分析 資料評估 資料清洗 資料監控 錯誤預警等內容,解決資料質量問題,使資料的質量得以改善,使其滿足資料需求方對資料質量的規則要求。包括但不止以下6個方面 要素分別為 基礎模型 資料質量定義模型 資料質量控制模型 資料質量評價模型 資料質量輔助模型。1.基礎模型。其他...

資料質量管理

資料質量管理 下列要素是進行資料質量管理的基礎 1.資料質量的好壞是由使用者以及資料使用價值所決定的。2.資料質量的好壞代表著資料在資料知識應用中 資料所存在的系統中以及資料使用過程中被應用或者有價值的程度。3.只有當資料被下游過程 系統或使用者 所接收並使用時,資料質量問題的研討才有意義。4.資料...

專案質量管理 規劃質量管理與控制

規劃質量管理,是識別專案及其可交付成果的質量要求和標準,並準備對策確保符合質量要求的過程。規劃質量管理過程的主要作用是 為整個專案中如何管理和確認質量提供了指南和方向。規劃質量管理的輸入 專案管理計畫 干係人登記冊 風險登記冊 需求檔案 事業環境因素 組織過程資產 規劃質量管理的工具與技術 成本效益...