一分鐘看懂資料湖架構

2021-10-06 01:11:13 字數 1541 閱讀 8730

資料湖和資料倉儲兩者都廣泛應用於大資料儲存,但兩者之間概念不可互換。資料湖是儲存原始資料的池,目的仍沒有明確。資料倉儲儲存結構化的、已過濾、處理的資料,用於特定分析目的。

兩種資料儲存架構經常被混淆,起始兩者之間差異大於共性。事實上,唯一共性都為了儲存海量資料。

了解兩者

區別很重要,因為它們服務於不同的目的,需要

使用不同的視角

進行理解

。雖然資料湖適用於一家公司,但資料倉儲

應該更適合

一家公司。

兩者有幾個方面的差異:資料結構、使用者群、處理方法以及資料的應用目的。

資料湖資料倉儲

資料結構

原始資料

處理過的資料

應用目的

仍未確定

當前正使用

使用者群資料科學家

商務人士

資料訪問

高可訪問性和快速更新

修改更複雜、成本高

資料結構:原始資料vs. 已處理資料

原始資料是仍沒有為特定目的處理過的資料。兩者最大的差異是多樣的原始結構和已處理的資料。資料湖主要儲存原始的、未處理的資料,而資料倉儲儲存處理、提煉過的資料。

因此,資料湖較資料倉儲一般需要更大的儲存能力。另外,原始的、未處理資料適用性更強,可以服務與任何目的應用,尤其是機器學習。但有時資料湖收集所有原始資料的分險是變成資料沼澤,因為沒有相應的資料治理和資料質量措施。

資料倉儲僅儲存處理過的資料。節約儲存空間,並不維護可能永不使用的資料。另外,處理過的資料對大多數人來說比較容易理解。

目的:未確定vs. 正在使用

資料湖中單個資料塊的目的並不確定。原始資料流入資料湖,有時是為未來特定目的,有時僅為了手邊有這樣資料。這意味著資料湖的資料組織、過濾相較於資料倉儲更少。

已處理的資料是針對特定目的來處理原始資料。因為資料倉儲僅儲存已處理的資料,所有在儲存倉庫中的資料用於特定目標而組織的。因此儲存空間不會浪費。

使用者群:資料科學家vs. 商務人士

資料湖對不熟悉的人通常很難瀏覽未處理的資料,原始的、非結構化資料一般需要資料科學家使用特定工具為特定目的進行理解、翻譯、分析。同時越來越多的資料湖資訊自助訪問工具也正在湧現。

可訪問性:靈活性vs. 安全性

可訪問性和易用性是指整個資料儲存庫的使用,而不是其中的資料

。資料湖資料沒有結構,比較容易訪問、改變。而且,任何對資料的改變能快速完成,因為資料湖幾乎沒有限制。

資料倉儲是被設計的,更加結構化。資料倉儲的主要優勢為正在處理的結構化資料更容易描述,結構的限制使得資料倉儲維護成本更高。

一般組織兩者都需要。資料湖誕生於利用大資料的需要,機器學習從原始、更細粒度結構和非結構化資料中受益,但仍然需要建立資料倉儲供業務使用者分析使用。

一分鐘看懂mysql 一分鐘,看懂易貨

從20世紀80年代開始,易貨公司在美國加拿大 澳大利亞等國興起,成為這些國家減少現金用量 增加銷售 減少庫存 開發新客戶 開闢新市場 促進經濟發展的重要產業。也成為了企業消化庫存商品 剩餘生產能力 無形資產的有效方式和在遭遇資金瓶頸時的新選擇。2015年以來,中國線下易貨店開始了矇眼狂奔,在河南南陽...

一分鐘sed入門(一分鐘系列)

1.簡介 sed是一種行編輯器,它一次處理一行內容。2.sed呼叫方式 sed options command file s sed options f scriptfile file s 第一種直接在命令列中執行,第二種把命令寫到了指令碼中,二者無本質區別。示例 1 列印hello.txt的內容 ...

一分鐘管理

有效而優秀管理者的 三板斧 一分鐘管理 你和下屬一起設定 一分鐘目標 確保他們知道自己應該做什麼,以及好的工作表現是什麼樣的。之後,你會努力發現他們做對了什麼事,好對他們進行 一分鐘稱讚 最後,如果你們完全有能力做好某件事,卻沒能做好,你就對他們進行 一分鐘批評 一分鐘目標 1.擬定3 5 個目標,...