元資料管理 Apache Atlas

2021-10-12 07:14:46 字數 2183 閱讀 2231

atlas是hadoop的資料治理和元資料框架。atlas是一組可擴充套件和可擴充套件的核心基礎治理服務,使企業能夠有效,高效地滿足hadoop中的合規性要求,並允許與整個企業資料生態系統整合。apache atlas為組織提供了開放的元資料管理和治理功能,以建立其資料資產的目錄,對這些資產進行分類和治理,並為資料科學家,分析師和資料治理團隊提供圍繞這些資料資產的協作功能。

支援各種hadoop和非hadoop

元資料管理

資料分類

資料血緣

可以支援字段級別的血緣關係

元資料搜尋

可以通過web頁面進行搜尋檢視元資料(庫、表、字段)和血緣關係(表和字段級別)

安全和生命週期管理

通過apache ranger 實現

主要元件

type system

:定義想要管理的元資料模型。

ingest / export

:匯入和更改元資料

graph engine

:通過使用圖形模型管理元資料物件。

janusgraph

:atlas使用titan圖資料庫來儲存元資料物件。titan使用兩個儲存:預設情況下元資料儲存配置為hbase,索引儲存配置為solr。

api:atlas的所有功能通過rest api提供給終端使用者,允許建立,更新和刪除型別和體。它也是查詢和發現通過atlas管理的型別和實體的主要方法。

messaging

:除了api之外,使用者還可以選擇使用基於 kafka 的訊息介面與atlas整合。

atlas admin ui

:基於web的應用程式,允許資料管理員和科學家發現和注釋元資料。最重要的是搜尋介面和sql樣的查詢語言。

apache ranger

:是針對 hadoop 生態系統的高階安全管理解決方案。

元資料處理的整體流程入下圖所示:

通過kafka監聽hive中的create/update/delete操作,從而更新元資料。

目前支援捕獲的hive操作:

create database

create table/view, create table as select

load, import, export

dmls (insert)

alter database

alter table (skewed table information, stored as, protection is not supported)

alter view

血緣捕獲方式:******、expression、script

注:hive hook只能監聽hive的命令,通過分析hql語句得到血緣關係。

元資料管理

大資料倉儲越來越重視元資料的管理,但是元資料怎麼管理,還處於探索階段。這樣帶來的弊端顯而易見,就是1 及時性達不到,2 準確性達不到,3 同步性也達不到。它只是結項的必交的文件而已。二 越來越多的角色的人使用數倉,迫切需要乙個介面展示具體指的意思,業務統計口徑等,用乙個web介面展示,但是後端還是e...

元資料管理

元資料管理的核心功能如下 在操作方式上分為自動採集和手動採集兩種 同時,提供採集日誌資訊的檢視,檢查採集是否成功。檢視採集日誌可以查詢到採集任務的如下資訊 開始時間 任務狀態 結束時間 過程日誌,採集的數量等等。元資料採集完成後,儲存在資料庫中,支撐包括元資料統計 查詢 血緣分析 影響性分析 資料資...

HDFS元資料管理

hdfs的目錄結構,包含哪些資料夾子資料夾,以及資料夾下面包含哪些檔案,以及每個檔案的block資訊 id,副本係數,block存放在那個datanode上 元資料存放在 name路徑下。在namenode的記憶體中有乙個樹形結構,存放的就是元資料資訊,對檔案的任何修改都在記憶體中有體現,但是如果機...