我們需要什麼資料架構?

2022-07-16 09:09:10 字數 2980 閱讀 8260

我們需要什麼資料架構?

在大資料和資料科學的新時代,對於企業而言,具有與業務流程一致的集中式資料體系結構至關重要,該體系結構隨業務增長而擴充套件,並隨技術進步而發展。 成功的資料架構可以使資料的各個方面清晰明了,從而使資料科學家能夠高效地處理可信賴的資料並解決複雜的業務問題。 它還使組織做好準備,以利用新興技術迅速利用新的商機,並通過管理整個企業中的複雜資料和資訊交付來提高運營效率。

與資訊體系結構,系統體系結構和軟體體系結構相比,資料體系結構相對較新。 資料架構師的角色也是模糊的,已經落在了高階業務分析師,etl開發人員和資料科學家的肩膀上。 儘管如此,我將使用data architect來指代那些為組織設計資料架構的資料管理專業人員。

在談論建築時,我們經常會想到與建築的模擬。 傳統的建築設計師計畫,設計和審查建築物的建造。 設計過程包括與客戶合作以充分收集需求,了解場所的法律和環境限制,並與工程師,測量師和其他專家合作以確保設計是現實的並且在預算之內。 這項工作的複雜性確實與資料架構師的角色非常相似。 但是,兩個架構師角色之間存在一些基本差異:

建築架構是自上而下設計的,而資料架構通常是可能已經存在的元件或系統的整合過程。

建築設計師在建造建築物之前必須了解全部要求並定義整個範圍。 資料體系結構的範圍可以廣泛並且容易更改。 因此,成功的資料架構應設計為靈活的,並可以預見未來的變化。

一名建築架構師具有嚴格的教育和專業要求,並且應在商業,藝術,結構物理和建築材料方面擁有深入的知識。 另一方面,大多數資料架構師都來自it背景,在一些公司或行業中具有專業經驗,並且對業務的了解有限。 因此,他們應該意識到自己的設計可能有偏差,並且需要根據組織中業務和技術專長的反饋來調整設計。

考慮到所有這些差異,資料架構師仍然可以向建築架構師學習,尤其是採用自上而下的方法來改進資料架構設計。 在許多組織中,缺乏系統的,集中的,端到端的資料體系結構設計。 以下列出了一些主要原因:

資料架構師的作用是僅專注於有限的技術領域,並且對資料擁有有限的業務知識。

由於這些不足,我們經常看到一家資料系統脫節且團隊和部門之間存在缺口的公司。 差異導致系統效能低下,需要進行大量交接,如果生產資料出現問題,則需要很長時間進行故障排除,缺乏在整個系統上找到正確解決方案的責任感,並且缺乏評估產品影響的能力。 改變。 最後,脫節的系統在遷移或重新設計到下一代平台時可能會花費大量精力進行分析和研究。

1.基於業務流程和運營的概念級資料架構設計

在現代it中,業務流程由資料實體,資料流和應用於資料的業務規則支援和驅動。 因此,資料架構師需要具有深入的業務知識,包括財務,市場營銷,產品以及業務流程(例如健康,保險,製造商和零售商)的特定於行業的專業知識。 然後,他或她可以通過設計代表每個業務域的資料實體和分類法以及業務流程下的資料流,來在企業級別正確構建資料藍圖。 在此概念階段尤其需要考慮和計畫以下領域:

核心資料實體和資料元素,例如有關客戶,產品,銷售的資料。

客戶和客戶所需的輸出資料。

要收集,轉換或參考以生成輸出資料的源資料。

每個資料實體的所有權以及如何根據業務用例使用和分配它。

要應用於每個資料實體的安全策略。

資料實體之間的關係,例如參考完整性,業務規則,執行順序。

標準資料分類和分類法。

資料質量,操作和服務水平協議(sla)的標準。

2.邏輯級資料架構設計

通過考慮使用哪種資料庫或資料格式,這種設計級別有時稱為資料建模。 它將業務需求連線到基礎技術平台和系統。 但是,鑑於資料建模者的角色,大多數組織僅在特定資料庫或系統中設計了資料建模。 通過考慮適用於每個資料庫或系統的標準以及這些資料系統之間的資料流,應採用整合方法開發成功的資料體系結構。 特別是,以下五個領域需要以協同方式進行設計:

命名約定和資料完整性

資料實體和元素的命名約定應一致地應用於每個資料庫。 同樣,如果相同的資料必須駐留在多個資料庫中,則應強制執行資料來源及其引用之間的完整性。 最終,這些資料元素應屬於資料體系結構中概念設計中的資料實體,然後可以根據業務需求協同準確地對其進行更新或修改。

資料歸檔/保留策略

直到生產的每個後期,才經常考慮或建立資料歸檔和保留策略,這會導致資源浪費,不同資料庫之間的資料狀態不一致以及資料查詢和更新的效能不佳。 為了加強資料完整性,資料架構師應基於操作標準在資料體系結構中定義資料歸檔和保留策略。

隱私和安全資訊

隱私和安全性成為邏輯資料庫設計的重要方面。 儘管概念設計已定義了哪個資料元件是敏感資訊,但邏輯設計應該具有受限訪問許可權,受限資料複製,特定資料型別和安全資料流的資料庫中保護機密資訊,以保護資訊。

資料複製

資料複製是要考慮三個目標的關鍵方面:1)高可用性; 2)避免通過網路傳輸資料的效能; 3)去耦以最小化下游影響。 但是,過多的資料複製會導致混亂,資料質量差和效能差。 任何資料複製都應由資料架構師檢查,並應用原則和紀律。

資料流和管道

在此級別上,應明確定義資料在不同資料庫系統和應用程式之間的流動方式。 同樣,此流程與業務流程和資料架構師概念級別中說明的流程一致。 此外,應在邏輯設計的整合檢視中考慮資料攝取的頻率,流水線中的資料轉換以及針對輸出資料的資料訪問模式。 例如,如果上游資料來源是實時的,而下游系統主要用於具有重索引的聚合資訊的資料訪問(例如,對於頻繁的更新和插入來說很昂貴),則需要在兩者之間設計資料管道。 優化效能。

3.資料治理是資料架構持續成功的關鍵。

由於資料體系結構反映並支援業務流程和流程,因此只要業務流程發生更改,資料架構就可能發生更改。 隨著基礎資料庫系統的更改,資料體系結構也需要進行調整。 因此,資料體系結構不是靜態的,而是需要進行連續的管理,增強和審計。 因此,應該採用資料治理來確保在啟動每個新專案時正確設計和實現企業資料體系結構。

結論在成功的資料體系結構中,基於業務流程的概念設計是最關鍵的組成部分,其次是強調所有資料庫和資料管道之間的一致性,完整性和效率的邏輯設計。建立資料體系結構後,組織可以檢視哪些資料駐留在何處,並確保資料得到保護,有效儲存和正確處理。同樣,當乙個資料庫或乙個元件發生更改時,資料體系結構可以使組織快速評估影響並指導所有相關團隊進行設計和實現。最後,資料體系結構是企業系統的實時文件,可以保證它是最新的,並提供清晰的端到端。總之,反映端到端業務流程和運營的整體資料架構對於公司在經歷重大變化(例如收購,數字轉換或遷移到下一代平台)的同時快速有效地發展至關重要。

我們需要什麼樣的測試?

左耳朵耗子發表了 我們需要全職的qa嗎?後,一石激起千重浪,贊成者有之,激烈反對者有之 有人說文中對qa的定義不對,還有人說以偏概全 的確,在需不需要專職的qa角色這個問題上,很難用乙個簡單的 需要 或 不需要 來回答。前兩天我寫了一篇對該文的回應文章,但由於文章寫就得比較倉促,很多觀點來不及完整表...

我們需要什麼樣的計算

本文選自 讓雲觸手可及 微軟雲計算實踐指南 一書 我們需要什麼樣的計算 我認為全球電腦市場的規模大約為5臺。ibm創始人托馬斯 j 沃森 thomas j.watson 1943 當我們站在微軟美國芝加哥資料中心一層的時候,資料中心管理人員告訴我這一層有好幾萬臺計算機,但是我們一台也沒看到。這是我見...

Linux需要什麼

來自http www.kylix.com.cn 詳細介紹 主要特色 快速成長的linux 市場 兼具穩定性 拓展性 開放性及低成本的linux 平台,是目前全球各地快速為市場所接受的作業系統。從web 伺服器 防火牆到快速快取網頁伺服器,眾多的linux 已經成功運用於internet 相關伺服器應...