使用Atlas進行元資料管理之Atlas簡介

2022-07-17 20:12:18 字數 962 閱讀 3807

背景:筆者和團隊的小夥伴近期在進行資料治理/元資料管理方向的探索, 在接下來的系列文章中, 會陸續與讀者們進行分享在此過程中踩過的坑和收穫。

[0] - 使用atlas進行元資料管理之atlas簡介

[1] - 使用atlas進行元資料管理之glossary(術語)

[2] - 使用atlas進行元資料管理之type(型別)

談到資料治理,自然離不開元資料。元資料(metadata),用一句話定義就是:描述資料的資料。元資料打通了資料來源、資料倉儲、資料應用,記錄了資料從產生到消費的全過程。因此,資料治理的核心就是元資料管理

資料的真正價值在於資料驅動決策,通過資料指導運營。通過資料驅動的方法判斷趨勢,幫住我們發現問題,繼而推動創新或產生新的解決方案。隨著企業資料爆發式增長,資料體量越來越難以估量,我們很難說清楚我們到底擁有哪些資料,這些資料從**來,到**去,發生了什麼變化,應該如何使用它們。因此元資料管理(資料治理)成為企業級資料湖不可或缺的重要組成部分。

可惜很長一段時間內,市面都沒有成熟的資料治理解決方案。直到2023年,hortonworks終於坐不住了,約了一眾小夥伴公司倡議:咱們開始整個資料治理方案吧。然後,包含資料分類、集中策略引擎、資料血緣、安全和生命週期管理功能的atlas應運而生。(ps:另乙個應用的較多的元資料開源專案是linkedin 在2023年新開源的專案:wherehows)atlas目前最新的版本為2023年9月18日發布的1.0.0版本。

atlas 是乙個可伸縮和可擴充套件的核心基礎治理服務集合 ,使企業能夠有效地和高效地滿足 hadoop 中的合規性要求,並允許與整個企業資料生態系統的整合。

apache atlas為組織提供開放式元資料管理和治理功能,用以構建其資料資產目錄,對這些資產進行分類和管理,並為資料科學家,資料分析師和資料治理團隊提供圍繞這些資料資產的協作功能。

資料管理之元資料

按照傳統的定義,元資料 metadata 是關於資料的資料。元資料打通了源資料 資料倉儲 資料應用,記錄了資料從產生到消費的全過程。元資料主要記錄資料倉儲中模型的定義 各層級間的對映關係 監控資料倉儲的資料狀態及 etl 的任務執行狀態。將元資料按用途的不同分為兩類 技術元資料 technical ...

元資料管理

大資料倉儲越來越重視元資料的管理,但是元資料怎麼管理,還處於探索階段。這樣帶來的弊端顯而易見,就是1 及時性達不到,2 準確性達不到,3 同步性也達不到。它只是結項的必交的文件而已。二 越來越多的角色的人使用數倉,迫切需要乙個介面展示具體指的意思,業務統計口徑等,用乙個web介面展示,但是後端還是e...

元資料管理

元資料管理的核心功能如下 在操作方式上分為自動採集和手動採集兩種 同時,提供採集日誌資訊的檢視,檢查採集是否成功。檢視採集日誌可以查詢到採集任務的如下資訊 開始時間 任務狀態 結束時間 過程日誌,採集的數量等等。元資料採集完成後,儲存在資料庫中,支撐包括元資料統計 查詢 血緣分析 影響性分析 資料資...