揭開資料湖建築的神秘面紗

2022-07-16 08:30:11 字數 3322 閱讀 2620

據gartner稱 , 到2023年 , 80%的成功cdo將創造價值或創造收入作為其第一優先事項。

為了在組織的資料環境中創造最大價值,傳統的決策支援系統架構已不再適用。 需要開發新的架構模式以利用資料的力量。 為了充分發揮使用大資料的價值,組織需要擁有靈活的資料架構,並能夠從資料生態系統中獲取最大價值。

data lake概念已經出現了一段時間。 但是,我看到組織很難理解這個概念,因為很多組織仍然在舊的企業資料倉儲範例中加入。

在本文中,我將深入**data lake architecture模式的概念構造和布局架構模式。

讓我們從已知的第乙個開始。

傳統資料倉儲(dwh)架構:

傳統的企業dwh架構模式已經使用了很多年。 有資料來源,資料被提取,轉換和載入(etl),在途中,我們進行某種結構建立,清理等。我們在edw(維度模型或3nf模型)中預定義資料模型,然後建立部門資料用於報告的marts,用於切片和切塊的olap多維資料集以及自助bi。

這種模式無處不在,現在已經很好地服務了我們。

但是,這種模式存在一些固有的挑戰,無法在大資料時代擴充套件。 讓我們看看其中幾個:

首先,我們工作的理念是我們需要首先理解資料。 什麼是源系統結構,它擁有什麼樣的資料,基數是什麼,應該如何根據業務需求對其進行建模,資料是否有任何異常等等。 這是一項乏味而複雜的工作。 我曾經在需求分析和資料分析階段花費至少2-3個月。 edw專案可持續幾個月到幾年。 這都是基於企業了解需求的假設。

我們還必須對要儲存的資料和要丟棄的資料做出選擇和妥協。 在決定引入什麼,如何引入,如何儲存,如何轉換等方面花費了大量時間。花費更少的時間來實際執行資料發現,發現模式或建立新的業務增值假設。

資料定義:

摩爾定律:

自2023年以來,處理能力,儲存和相應的成本結構發生了巨大變化。 它一直受到我們稱之為摩爾定律的影響 。 關鍵點:

自2023年以來,處理能力增加了大約10,000倍。這意味著有效分析更多資料的能力有所提高。

儲存成本也相當可觀。 自2023年以來,儲存成本已經下降了1000多倍。

資料湖模擬:

讓我用模擬來解釋data lake的概念。

參觀乙個大湖總是一種非常愉快的感覺。 湖中的水是最純淨的形式,不同的人在湖上進行不同的活動。 有些人正在釣魚,有些人正在乘船遊覽,這個湖還為居住在安大略省的人提供飲用水。 簡而言之,同乙個湖泊用於多種用途。

隨著資料範例的變化,出現了一種新的架構模式。 它被稱為資料湖建築。 就像湖中的水一樣,資料湖中的資料是最純粹的形式。 就像湖泊一樣,它需要不同的人,想釣魚的人或想乘船的人或想要從中獲取飲用水的人,資料湖建築迎合多種人物角色。 它為資料科學家提供了探索資料和建立假設的途徑。 它為業務使用者提供了一種探索資料的途徑。 它為資料分析師提供了分析資料和查詢模式的途徑。 它為報告分析師建立報告和向利益相關者呈現提供了一條途徑。

我將資料湖與資料倉儲或市場進行比較的方式如下:

data lake以最純粹的形式儲存資料,迎合多個利益相關者,還可以用於以終端使用者可以使用的形式打包資料。 另一方面,資料倉儲已經過蒸餾和包裝以達到特定目的。

概念資料湖建築:

在解釋了這個概念後,現在讓我帶您了解資料湖的概念架構。 以下是資料湖架構中的關鍵元件。 我們擁有可以結構化和非結構化的資料來源。 它們都整合到原始資料儲存中,以最純粹的形式使用資料,即不進行轉換。 它是一種廉價的持久儲存,可以大規模儲存資料。 然後我們有了分析沙箱,用於理解資料,建立原型,執行資料科學和探索資料以構建新的假設和用例。

然後我們有批處理引擎,它將原始資料處理成可由使用者使用的東西,即可用於向最終使用報告的結構。 我們將其稱為已處理的資料儲存。 有乙個實時處理引擎可以獲取流資料並對其進行處理。 此體系結構中的所有資料都已編目和編制。

讓我引導您完成此體系結構中的每個元件組。

lambda:

第乙個元件組適合處理資料。 它遵循稱為lambda architecture的架構模式。 基本上,lambda架構需要兩個處理路徑。 批處理層和速度層。 批處理層以最可能的形式儲存資料,即原始資料儲存和速度層接近實時處理資料。 速度層還將資料儲存到原始資料儲存中,並且可以在載入到處理的資料儲存之前儲存瞬態資料。

分析沙箱:

分析沙箱是資料湖架構的關鍵組成部分之一。 這些是資料科學家的探索領域,他們可以開發和測試新的假設,混搭和探索資料以形成新的用例,建立快速原型來驗證這些用例,並實現可以採取哪些措施來提取價值。這生意。

它是資料科學家可以發現資料,提取價值並幫助改變業務的地方。

編目和治理:

資料編目是傳統商業智慧型中不斷忽視的重要原則。 在大資料領域,編目是人們應該關注的最重要的方面。 讓我首先給出乙個模擬來解釋什麼是編目。 我和我的客戶一起做這個練習,以獲得編目的重點。

當我要求我的客戶在沒有提供目錄資訊的情況下猜測繪畫的潛在成本時,答案範圍從100美元到100,000美元不等。 當我提供目錄資訊時,答案更接近實際。 順便說一下,這幅畫被稱為pablo picasso於2023年創作的「 老結他手 」。它的估計成本超過1億美元。

資料目錄非常相似。 不同的資料塊具有不同的值,並且該值根據資料的譜系,資料質量,建立源等而變化。資料需要被編目,以便資料分析員或資料科學家可以自己決定哪個資料指向用於特定分析。

目錄圖:

目錄對映提供了可以編目的潛在元資料。 編目是捕獲有價值的元資料的過程,以便可以用它來確定資料的特徵並做出是否使用它的決定。 基本上有兩種型別的元資料:業務和技術。 業務元資料更多地與定義,邏輯資料模型,邏輯實體等有關,而技術元資料是捕獲與資料結構的物理實現相關的元資料。 它包括資料庫,質量得分,列,架構等。

根據目錄資訊,分析師可以選擇在正確的上下文中使用特定的資料點。 讓我給你舉個例子。 想象一下,資料科學家想要對庫存周轉率及其在erp中定義的方式進行探索性分析,並且庫存系統是不同的。 如果對該術語進行了編目,則資料科學家可以根據上下文決定使用erp中的列或庫存系統。

data lake和edw的主要區別:

這是乙個明確的幻燈片,試**釋差異。

首先,哲學是不同的。 在資料湖架構中,我們首先在raw中載入資料並決定我們應該如何處理它。 在傳統的dwh架構中,我們必須首先理解資料,對其進行建模然後載入。

資料湖中的資料以原始形式儲存,其中dwh中的資料以結構化形式儲存。 記住湖和蒸餾水。

data lake支援各種使用者。

分析專案實際上是敏捷專案。 這些專案的本質是,一旦你看到輸出,你會想得更多,想要更多。 資料湖本質上是敏捷的。 由於它們將所有資料與其目錄儲存在一起,因此可確保如果出現新要求,則可以非常輕鬆地進行調整。

azure上的data lake架構:

雲平台最適合實施data lake architecture。 他們擁有大量可組合服務,可以將它們編織在一起以實現所需的可擴充套件性。 microsoft的cortana intelligence suite提供了乙個或多個元件,可以對映到data lake architecture。

揭開信貸神秘面紗

貸款信用保險是指保險人對銀行或其他金融機構與企業之間的借貸合同進行擔保,以承保借款人信譽風險的保險。在貸款信用保險中,貸款方 即債權人 是投保人。但保單簽發後,貸款方即成為被保險人。當企業無法歸還貸款時,債權人可以從保險那裡獲得補償。貸款人在獲得保險人的補償後,必須將債權轉讓給保險人,由保險人向借款...

揭開Zookeeper神秘面紗

zookeeper是乙個開源的分布式的,為分布式應用提供協調服務的apache專案。hadoop 和hbase的重要元件。它是乙個為分布式應用 提供一致性服務 的軟體,提供的功能包括 配置維護 網域名稱服務 分布式同步 組服務 等。1 zookeeper 乙個領導者 leader 多個跟隨者 fol...

揭開MVC的神秘面紗

最近參加的高校平台專案中涉及到了 mvc。mvc,有人說是一種設計模式,也有人說是使用者介面層設計架構。那麼 mvc到底是什麼呢?今天我們一起來學習一下。mvc,即model view controller,把乙個應用的輸入 處理 輸出流程按照 model view controller 的方式進行...