換個角度認識大資料(下) 元資料管理應用

2022-07-05 22:45:10 字數 1812 閱讀 7759

什麼是元資料?在前面的什麼是元資料文章中,我們也提到過,元資料是資料的資料,可以幫助資料平台解決「有哪些資料」、「資料儲存有多少」、「資料流中的血緣關係」、「如何找到我需要的資料」、「如何使用資料」和「資料的生產進度」問題。

元資料管理是做什麼?

元資料在資料平台對原資訊的收集、彙總和傳遞將資料平台各個模組整合起來。元資料管理系統是收集線上db、solor集群、hbase集群和hive集群的元資料資訊,並將其傳遞給各其他系統。

元資料管理為大資料平台繪製資料地圖、統一資料口徑、標明資料方位、分析資料關係、管理模型變更及精確到字段級別的影響分析。打通上下游資料繼承關係斷層,為資料質量維護和業務邏輯視覺化打下堅實基礎。

要實現元資料管理有三個方面:

1、採集:指從各種工具中,把各種型別的元資料採集進來,採集是元資料管理第一步。

2、儲存:採集之後需要相應的儲存策略來對元資料進行儲存,這需要在不改變儲存架構的情況下擴充套件元資料儲存的型別;

3、分析:在採集和儲存完成後,對已經儲存的元資料進行管理分析。

在這裡我們主要對元資料管理應用的元資料分析、資料地圖功能進行深入了解。

元資料分析

假設有一天,我們需要對某一些業務資訊指標做乙個報表統計,用於前端的資料展示,這些業務資訊可能來自於不同的表,通過不同的etl過程到目標資料倉儲,最後展示在乙個報表中,如下圖所示:

a、血緣分析

假設你在管理報表,有一天你發現有報表資料異常,你需要找出錯誤的資料並提交流程修正,那麼這個錯誤資料從何而來?乙個個核對資料顯然不夠高效,那你就得知道這個報表的的指標**,元資料管理工具的血緣分析功能會自動幫助你分析這個錯誤資料的上游路徑,比如這些資料是由table1和table2經過etl過程進入dw,那麼此時你只需要去查詢table1和table2以及相關的etl過程即可。

血緣分析可以清晰的幫助我們了解到所維護的資料的使用與被使用情況,猶如資產一般,便於維護定位與統一管理。

b、影響分析

資料終於更正了,此時你需要及時提醒大家這個資料的更正資訊,只需要通知這個資料影響到的實體就可以了,然而整個報表流程的資料傳遞這麼複雜,怎麼判斷哪些實體會受到這個資料的影響呢。

元資料管理工具的影響分析功能會分析出這個資料的影響範並能用視覺化的方式展現出來,只需要更新受所影響的實體。

c、資料地圖展現

在當今這個大資料時代下,資料即為資產。資料因需求而成為有價資產,資料多寡即窮富,然而無法挖掘的資料是沒有任何的價值,換句話說,如果沒有管理好元資料,收集和儲存的資料都會失去意義,也就沒有業務價值。如何管理好元資料是非常重要的,根據權威資料管理研究機構tdwi對數百家國際企業的調研結果,元資料管理的重要性在全部技術主題中位列第一。通過元資料管理,可以形成系統化資料資產的準確檢視,通過對元資料的統一檢視,管理由各個業務系統的資料,梳理業務元資料之間的關係,並可以對這些資料進行**、變遷進行跟蹤分析。通過精確把握資料獲取資料,從而把資料轉為有價資產。

換個角度思考大資料

什麼是大資料?idc的權威定義為 滿足4v variety,velocity,volume,value,即種類多 流量大 容量大 價值高 指標的資料稱為大資料。idc對大資料技術的定位為 通過高速捕捉 發現和 或分析,從大容量資料中獲取價值的一種新的技術架構。大資料主要涉及兩個不同的技術領域 一項致...

大資料管理

1 資料治理 概念 業務中涉及資料使用的一整套管理行為,如何制定和實施針對整個企業內部資料的商業應用和技術管理的一系列政策和流程.組成部分 元資料管理 主資料管理 大資料質量管理 大資料資產化 大資料共享發布 大資料標準 大資料交換整合 元資料管理 收集元資料,對元資料進行查詢 分析 版本管理 後期...

《大資料管理概論》一導讀

叢書前言 前言作者簡介 第1章 概述 1.1 大資料的基本概念 1.2 大資料的演變過程 1.3 大資料應用 1.4 大資料的處理模式 1.4.1 批處理 1.4.2 流處理 1.5 大資料管理的關鍵技術 1.5.1 大資料融合 1.5.2 大資料分析 1.5.3 大資料隱私 1.5.4 大資料能耗...