Hadoop對資料倉儲的影響

2022-05-04 19:48:29 字數 1544 閱讀 3317

**

在過去三年,hadoop生態系統已經大範圍擴充套件,很多主要it**商都推出了hadoop聯結器,以增強hadoop的頂層架構或是**商自己使用的hadoop發行版。鑑於hadoop的部署率呈指數級的增長,以及其生態系統不斷地深入而廣泛地發展,我們很想知道hadoop的崛起是否會導致傳統資料倉儲解決方案的終結呢。

我們也可以將這個問題放到乙個更大的環境中去討論:在何種程度上,大資料

會改變傳統資料分析的環境?

資料倉儲是技術和軟體套件,它能夠從作業系統收集資料,並將這些資料整合,並統一到**資料庫中,然後對資料儀錶盤上指標進行分析、視覺化和追蹤關鍵效能處理。

資料倉儲和hadoop之間的主要區別是:資料倉儲通常部署在單個關聯式資料庫中,而這個資料庫則起到**儲存的作用。相比之下,hadoop及其hadoop檔案系統是跨多個機器,並用來處理海量資料的,而這是任何單台機器都達不到的能力。

此外,hadoop生態系統包括構建在hadoop核心之上的資料倉儲層/服務,而hadoop上層服務包括sql(presto)、sql-like(hive)和nosql(hbase)型別的資料儲存。相比之下,在過去的十年中,大型資料倉儲轉移到使用自定義多處理器裝置來擴充套件資料量,像netezza(被ibm收購)和teradata所提供的資料倉儲。然而,這些裝置都非常昂貴,大多數中小企業都負擔不起。

在這種背景下,我們很自然地要問:hadoop是否是資料倉儲的終結者?

為了回答這個問題,我們需要將資料倉儲技術與資料倉儲部署分開來看。hadoop(和nosql資料庫的出現)將預示著資料倉儲裝置和傳統資料倉儲單一資料庫部署的消亡。

而在這方面就有過例項。hadoop**商cloudera將其平台作為「企業資料樞紐」,這在本質上將傳統資料管理解決方案的納入了需求。readwrite.com在最近發表的一篇題為「為什麼專有大資料技術沒有希望與hadoop競爭」的文章中也發表了類似的看法。同樣地,最近一篇華爾街**文章描述了hadoop如何挑戰甲骨文和teradata。

hadoop

或nosql生態系統仍將繼續發展。很多大資料環境開始選擇nosql、sql甚至是newsql資料倉儲的混合方法。此外,mapreduce並行處理引擎也有變化和改進,例如apache的spark專案。雖然這個故事還遠遠沒有結束,但可以說,傳統的單一伺服器關係型資料庫或資料庫裝置並不是大資料或資料倉儲的未來。

另一方面,資料倉儲技術(包括提取—轉換—和—載入、三維建模和商業智慧型)將會應用到新的hadoop/nosql環境。此外,這些技術也將變身來支援更多的混合環境。主要原則是因為並不是所有資料都是平等的,所以it經理們應該選擇資料儲存和訪問機制來適應資料的使用。混合環境將包括關鍵價值儲存、關係型資料庫、圖形儲存、文件儲存、柱狀儲存、xml資料庫、元資料目錄等等。

正如你所看到的,這並不是乙個簡單的問題,也不可能簡單地得出乙個答案。然而,一般情況下,雖然大資料在未來五年內將會改變資料倉儲的部署,但它不會導致資料倉儲的概念和做法過時。

對於向資料倉儲投入巨資的聯邦**這意味著什麼呢?

首先,當現有資料倉儲的容量不夠時,資料倉儲將被轉移到基於hadoop、多機器或雲託管的解決方案。其次,企業並不會選擇「放之四海而皆準」的做法,而會將目光轉向適合其企業內部資料容量的混合儲存方法。

Hadoop與傳統資料倉儲的區別

1.資料倉儲業界是否該為 hadoop 的迅速崛起而感到擔憂甚至恐慌 抑或是該向其敞開熱情的懷抱 cloudera 公司的doug cutting 與hortonworks 公司的arun murthy 作為hadoop 領域的兩位先驅者,在本屆 hadoop 2014 峰會的問答環節中提出了這樣的...

資料倉儲 資料倉儲部署

1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...

資料倉儲,什麼是資料倉儲?

資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲是為企業所有級別的決策制定過程提供支援的所有型別資料的戰略集合。它是單個資料儲存,出於分析性報告和決策支援的目的而建立。為企業提供需要業務智慧型來指導業務流程改進和監視時間 成本 質量和控制。資料倉儲是決策支援系統 ds...