資料湖的現實與夢想

2021-09-24 17:25:43 字數 2951 閱讀 2161

資料湖正在成為一種越來越流行的大資料解決方案,而資料湖這個詞已經被大資料**商賦予了太多不同的含義,如果有什麼工作是傳統資料倉儲做不了的,那就把它塞進資料湖,以至於資料湖已經變成了乙個定義模糊的概念。資料湖是不是就是傳說中的銀彈,可以解決所有資料倉儲不能解決的問題呢。本文將講述,關於資料湖的定義,與資料倉儲的區別,以及現實中的資料湖解決方案和未來會怎樣發展。

資料湖是什麼

可見,企業使用資料湖架構,核心出發點就是把不同結構的資料統一儲存,使不同資料有一致的儲存方式,在使用時方便連線,真正解決資料整合問題。因此,資料湖架構最主要的特點,一是支援異構資料聚合,二是無需預定義資料模型即可進行資料分析。

資料湖從本質上來講,是一種企業資料架構方法,物理實現上則是乙個資料儲存平台,用來集中化儲存企業內海量的、多**,多種類的資料,並支援對資料進行快速加工和分析。從實現方式來看,目前hadoop是最常用的部署資料湖的技術,但並不意味著資料湖就是指hadoop集群。為了應對不同業務需求的特點,mpp資料庫+hadoop集群+傳統資料倉儲這種「混搭」架構的資料湖也越來越多出現在企業資訊化建設規劃中。

資料湖與資料倉儲的區別

資料湖的概念最早是基於資料倉儲提出的,資料倉儲作為一種資料儲存架構,旨在儲存從多資料來源提取的資料,這些資料報括業務操作型資料、業務分析型資料,以及企業內的運營管理型資料。資料倉儲負責將各類資料經過抽取、清洗、轉換、聚合、儲存等加工處理,進行企業級資料統一管理和分析。

而資料湖作為另一種資料儲存架構,它以資料原生格式儲存大量原始資料或明細資料,以供按需訪問,資料湖可以用來描述任何具有不明確的模式和資料需求的大型資料儲存。可見,資料倉儲中的資料是具有特定主題分類的,這可以指導資料管理人員有針對性的開展資料分析工作。但對於資料湖來說,它管理的所有資料只是作為未來資料分析的基礎素材。

資料湖與資料倉儲這兩個概念很容易被混淆,它們的區別主要有三個方面。

一是儲存資料型別不同。資料倉儲中儲存的主要是結構化資料,對於載入到資料倉儲中的資料,首先需要定義資料儲存模型。而資料湖以其原生格式儲存大量原始資料,包括結構化的、半結構化的和非結構化的資料,並且在使用資料之前,不對資料結構進行定義。

二是資料處理模式不同。資料倉儲是高度結構化的架構,資料在清洗轉換之後才會載入到資料倉儲,使用者獲得的是處理後資料。而在資料湖中,資料直接載入到資料湖中,然後根據分析的需要再處理資料。

三是服務物件不同。從使用者差異上來看,資料倉儲適合企業中大資料產品開發人員和業務使用者。而資料湖最適合資料分析師或資料科學家,他們直接基於資料沙箱做自由探索和分析,這些人要求有技術背景,會寫**或熟悉sql。

通過以上對比,可見資料湖不是簡單的資料倉儲公升級版,兩者有各自的存在必要。與此同時,還有一種資料沼澤的提法,這是指一種設計不良、未充分歸檔或未有效維護的資料湖,使用者無法有效地分析和利用其中儲存的資料。

資料湖解決方案的五個優勢

資料湖解決方案面向多資料來源的資訊儲存需求而提出,大資料應用可通過訪問資料湖處理資料,但資料湖不僅僅是乙個巨大的資料儲存庫,相比傳統的資料儲存方案,資料湖解決方案有著以下優勢。

一是資料整合方式簡單。資料湖支援以低成本收集並儲存大量任意型別資料,企業中的所有資料來源都可以送入資料湖中,極大簡化了資料的整合工作。

二是加速資料準備過程。分析師和資料科學家不需要花時間直接訪問多個**,可以更輕鬆地搜尋、查詢和訪問資料,這加速了資料準備過程。

三是具備更好的可擴充套件性。資料湖利用分布式資料儲存系統來儲存資料,具有很高的擴充套件能力,資料科學家可以在資料湖內建立資料沙箱來開發和測試新的分析模型。

四是系統建設成本更低。傳統資料倉儲的建設成本很大部分花在資料處理階段和購買商業化資料儲存軟體上,而資料湖中的資料缺乏結構性,在使用資料之前無需執行任何資料處理,而且開源資料儲存軟體的廣泛使用也降低了成本。

五是便於建立智慧型化分析應用。資料湖以原始的格式儲存資料,資料保真度高,同時支援使用者直接訪問資料,建立資料沙箱,更適合使用機器學習演算法來訓練資料和建立智慧型化分析應用。

幾個典型的資料湖解決方案

資料湖的概念誕生之後,一些大資料廠商也提出了自己對資料湖的理解,並依託自身核心產品或開源軟體,發布了側重於不同應用場景下的資料湖解決方案。

dell emc 資料湖方案則是基於其儲存技術,它將資料湖定義為乙個現代化的資料倉儲,是可整合資料的橫向擴充套件儲存方案。該方案包括了emc資訊基礎設施、pivotal和vmware的儲存及大資料分析技術,來實現資料的儲存、分析、應用三項核心需求,支援不同的資料儲存技術(data domain、isilon、ecs)和資料移動技術(distcp、snapshot、ndmp)。據稱已成功應用於醫療服務領域,用來改進**性護理工作以及發現資料趨勢。

但總體來言,業界提出資料湖解決方案的**商並不多,大多數企業只是在做這方面的研究和探索,資料湖解決方案中提倡的自助分析、資料沙箱在實際中應用程度也並不高。

資料湖的未來

資料湖相對於以往的關係型資料庫、傳統式資料倉儲,更多體現的是一種資料儲存技術上的融合。資料湖的提出,改變了使用者使用資料的方式,同時,資料湖也整合了各種型別資料的分析和儲存,使用者不必為不同的資料構建不同資料儲存庫。

但是,現階段資料湖更多是作為資料倉儲的補充,它的使用者一般只限於專業資料科學家或分析師。資料湖概念和技術還在不斷演化,不同的解決方案**商也在新增新的特性和功能,包括架構標準化和互操作性、資料治理要求、資料安全性等。

未來,資料湖可能會進一步發展,作為一種雲服務隨時按需滿足對不同資料的分析、處理和儲存需求,資料湖的擴充套件性,可以為使用者提供更多的實時分析,基於企業大資料的資料湖正在向支援更多型別的實時智慧型化服務發展, 將會為企業現有的資料驅動型決策制定模式帶來極大改變。

結語從理論上講,資料湖是一種儲存大量複雜格式資料,避免企業資料孤島化的資料架構方案,它一方面降低資料整合成本,另一方面為使用者提供更靈活的資料訪問支援。但同時,各類資料湖解決方案目前在技術實現上還不夠成熟,仍處在演化過程中,其訪問控制、資料安全、資料質量、元資料管理等特性仍需要完善。

在大資料+ai時代裡,從資料倉儲到資料湖,不僅僅是資料儲存架構的變革,更是大資料思維方式的公升級。隨著基於深度學習技術的ai應用需求廣泛出現,需要提供乙個資料平台,支援對原始資料的輕鬆訪問,開展演算法模型訓練和驗證,資料湖解決方案將可能成為解決ai應用需求最好的選擇。

夢想與現實

一 永遠不要說你已經盡力了 我在高中時體育特別差,跑1000公尺都很要命,從來都是不及格。到了清華之後,第一節體育課,老師告訴我們每年要測3000公尺長跑,跑不過不許畢業,取消推研資格。怎麼辦?於是每天晚上10 30,我們的自習教室關門,操場上的人就多起來了。跑半個小時再回寢室繼續學習,練了乙個學期...

夢想與現實

動機和目的,有時候很飄渺。不咬文嚼字,夢想 動機 目的,這幾個詞的意思差不多。很少有企業家明目張膽地宣稱 自己做企業就是為了賺錢。把賺錢當成目的,或者文雅一點說,把經濟績效當成企業的使命,大部分企業家都羞於出口,怕被貼上唯利是圖的標籤。員工為什麼要工作,和上面的問題有類似之處。面試過不少員工,有時會...

夢想與現實

動機和目的,有時候很飄渺。不咬文嚼字,夢想 動機 目的,這幾個詞的意思差不多。很少有企業家明目張膽地宣稱 自己做企業就是為了賺錢。把賺錢當成目的,或者文雅一點說,把經濟績效當成企業的使命,大部分企業家都羞於出口,怕被貼上唯利是圖的標籤。員工為什麼要工作,和上面的問題有類似之處。面試過不少員工,有時會...