資料中臺專欄(三) 資料質量分析及提公升

2021-09-25 04:01:18 字數 3301 閱讀 4998

管理引起的資料質量問題 :

公司核心部門對某資料做了物理刪除 ,不留痕跡   :

譬如在 2月 29 號 下單了 ,但是 3月一號 進行資料刪除

從總體來說 2月 3月 應該少一條資料 ,但是因為刪除了 其實 這個資料是多餘出來的  。 屬於管理和技術方面的資料質量

解決的方式 1) 每天乙個全量 ,做減法 ,剔除刪除的資料 2) 系統層面進行修復  3) 實時資料捕捉這條資料

一般情況下,企業都有多套的業務系統,一些大型企業甚至會有上百套的業務系統。這些業務在不同時期由不同的團隊開發完成。因此,這些業務系統都參考著不同的標準生產各自資料。由於濫用縮寫詞,慣用語,資料輸入錯誤,重覆記錄,丟失值,拼寫變化,不同的計量單位,大量應用系統產生的大量資料是髒資料。這些髒資料是沒有意義的,根本就不可能為以後的資料探勘決策分析提供任何支援。這就是資料質量問題的由來。

一般來說資料質量問題有四個因素造成:

從上述的四因素來說,管理因素和流程因素屬於組織管理範疇,資訊因素和技術因素屬於技術範疇。所以,要改進資料質量問題,要從組織管理和技術兩方面入手,才能從根本上,最佳地解決資料質量問題。

從方**的角度,從組織管理上去改進質量,我們能做的是:

從技術上去改進資料質量,我們能做的是:

當我們談到資料質量改進的時候,我們必須要有乙個資料質量評價標準,有了評價標準,我們才能知道如何評價資料的質量,才能把資料質量量化,並知道改進的方向和改進的效果。

目前業內認可的資料質量的六大標準是:

使用者可以把每個標準作為六邊形的頂點,把你的資料該標準下的質量作為0-100分的點,在圖的中心是0,在六邊形的頂點是100分,把資料質量點連起來,圍城的面積s就是使用者資料質量的情況。

通常在業務系統存在兩大型別資料:主資料和行為資料。主資料是描述事物主體的資料比如人,商品等,行為資料圍繞主資料描述的事物發生的行為資料比如交易訂單資料,日誌資料等。所以,資料治理的改進的核心在於主資料質量改進,只有改進了主資料質量,才能有可能把整體業務資料質量提公升上去。

主資料質量治理的目標是把各個業務系統低質量的基礎資料,經過質量治理,形成統一規範的主資料,然後反饋給業務系統和其他資料應用系統使用。

當然,解決這個問題不僅僅只有主資料乙個方法,也可以在建設企業資訊系統的時候就從全域性考慮,借助業務中臺建設全域性共享的業務服務中心,在業務服務中心的設計中確保基礎資料的統一。但當前的現實情況是,大多數企業經過多年的資訊化建設,已經積累了大量的煙囪式資訊系統,按照業務中颱的思路,徹底推倒重建的成本巨大。所以主資料管理也是解決企業當前基礎資料不統一的可行方案。

對主資料的質量進行改進,需要從以下幾個方面入手:

資料質量改進流程圖

1. 了解資料現狀

當前有多少資料?資料模型是什麼樣子?涉及到哪些業務部門和角色?有什麼樣的維護流程和體系?資料在哪個或者哪些系統中錄入?資料如何流轉?資料質量如何?共享質量如何?

可通過以下兩種方式對當前資料現狀進行調研了解:

管理流程調研:管理流程調研按照人員,組織,客商,物料,產品,資產,專案以及合同等分成多個子專案。根據企業需要,選擇一些做調研。

基礎資料調研:主要是調研的是當前的資料在**?哪個部門管?怎麼管?資料量有多大?資料格式是什麼?資料質量如何?

2. 設計資料模型

資料定義是什麼?資料到底有幾個模型?每個模型中有幾個字段?每個欄位的含義是什麼?這裡主要討論基礎的資料建模,即確定主資料的屬性數量,名稱,屬性資料型別及長度等資訊。

主資料定義:定義需要明確和清晰。定義關係到資料範圍和資料量,關係到與其他主資料的關係。比如人員主資料是指所有與**公司簽署了正式勞動合同的人員。人員主資料是從企業管理視角出發的人員實體的數位化描述。

主資料中表的顆粒度:是用一張表還是多張表描述實體,這決定主資料中表與表之間存在1:1,1:n,n:m的各種關係。

主資料中欄位屬性的顆粒度:根據實際的業務需求,定義字段屬性的顆粒度,顆粒度細,則資料量大。反之,則少。

遵循的原則:權威原則、全域性性原則、共享性原則、擴充套件性原則。

3. 製作主資料管理方案

哪個部門,哪個崗位,在什麼時候,依據什麼進行主資料維護?

4. 資料清洗方案

當前存在的資料如何變成標準主資料的過程。

5. 主資料管理技術方案

資料流向方案

資料的入口在**,主資料系統中的資料分發給哪些系統

系統支援方案

資料在哪個系統中錄入

系統整合方案

主資料服務規範,第三個系統改造內容

隨著網際網路時代的來臨,企業面對的資料已經遠遠不是簡單的業務資料,而是來自網路和各種裝置的大量結構化和非結構化資料即大資料(big data)。通常來說大資料質量往往比業務系統產生的主資料的質量還要差,當然也需要治理。

資料的質量治理有七大原則:

袋鼠雲作為一家企業資料整體解決方案提供商,有一套完整的企業資料解決方案,尤其在資料治理方面,不僅提供資料質量治理的諮詢服務,也提供相應的資料質量治理的產品,數棧。

資料質量分析

本文讀取了csv檔案,完成了下列要求 import pandas as pd from matplotlib import pyplot as plt import matplotlib as mpl 讀取檔案資料 csv file r c users sun tianwen desktop cat...

資料探索之資料質量分析

資料質量分析的主要任務是檢查原始資料中是否存在髒資料,髒資料一般指的是不符合要求,以及不能直接進行相應分析的資料。資料的質量分析側重於髒資料的發現,而資料清洗則是對這些髒資料的修正或者丟棄。一般情況下,資料的質量分析與資料清洗是相伴而行的,在分析出髒資料的時候伴隨著資料的清洗。常見的髒資料報括如下 ...

資料質量分析和特徵分析

1.資料質量分析包括缺失值分析,異常值分析 1.1資料質量分析之異常值分析 資料質量驗證最常用的方法是最大值和最小值,用來判斷這個變數的範圍是否超出了合理區間。如果資料服從正態分佈,在3 原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值,在正態分佈的假設下距離平均值3 之外的值出現...