資料倉儲與資料湖之間的理解誤區

2021-10-13 21:06:30 字數 784 閱讀 6872

誤解一:資料倉儲和資料湖二者在架構上只能二選一

很多人認為資料倉儲和資料湖在架構上只能二選一,其實這種理解是錯誤的。資料湖和資料倉儲並不是對立關係,相反它們的並存可以互補給企業架構帶來更多的好處:

資料倉儲儲存結構化的資料,適用於快速的bi和決策支撐,

而資料湖可以儲存任何格式的資料,往往通過挖掘能夠發揮出資料的更大作為。

所以在一些場景上二者的並存是可以給企業帶來更多效益的。

人工智慧(ai)和機器學習專案的成功往往需要資料湖來做支撐。因為資料湖可讓您儲存幾乎任何型別的資料而無需先準備或清理,所以可以保留盡可能多的潛在價值。而資料倉儲儲存的資料都是經過清洗,往往會丟失一些有價值的資訊。

資料倉儲雖然是這兩種中比較知名的,但是隨著資料探勘需求的發展,資料湖的受歡迎程度可能會繼續上公升。資料倉儲對於某些型別的工作負載和用例工作良好,而資料湖則是為其他型別的工作負載提供服務的另一種選擇。

誤解三:資料倉儲易於使用,而資料湖卻很複雜

確實,資料湖需要資料工程師和資料科學家的特定技能,才能對儲存在其中的資料進行分類和利用。資料的非結構化性質使那些不完全了解資料湖如何工作的人更難以訪問它。

但是,一旦資料科學家和資料工程師建立了資料模型或管道,業務使用者就可以利用建立的資料模型以及流行的業務工具(定製或預先構建)的來訪問和分析資料,而不在乎該資料儲存在資料倉儲中還是資料湖中

資料倉儲和資料湖的區別

在實際專案開發中,需要和資料倉儲以及資料湖那邊的開發同事進行對接,頭一次聽到這兩個名詞,自己也是一頭霧水。下面我就以我自己的理解,簡單的向大家介紹一下。資料庫 就是儲存當前的業務資料,集中儲存的是公司經常使用到的資料 儲存的是公司近50年的資料 資料倉儲 也是儲存的公司的各種業務資料,主要集中儲存的...

的資料湖 資料湖 VS 資料倉儲 VS 資料中臺

資料行業的名詞越來越多,其中,資料湖 資料倉儲和資料中颱是比較熱門的詞彙,他們都與資料有關,他們之間又有什麼區別呢?資料湖 資料倉儲和資料中臺,他們並沒有直接的關係,只是他們為業務產生價值的形式有不同的側重。作為乙個集中的儲存庫,可以在其中儲存任意規模的所有結構化和非結構化資料。在資料湖中,可以儲存...

資料湖 資料集市 資料倉儲 入門級理解

每個應用程式會產生 儲存大量資料,而這些資料並不能被其他應用程式使用,這種狀況導致資料孤島的產生。資料湖 是乙個儲存企業的各種各樣原始資料的大型倉庫。儲存所有型別的資料,如結構化資料,非結構化資料,半結構化資料等,資料的型別依賴於資料來源系統的原始資料格式。資料湖通常包含更多的相關的資訊,這些資訊有...