淺評資料倉儲三大王者

2021-09-06 02:38:39 字數 1078 閱讀 1090

teradata, 當仁不讓的霸主

teradata已經在這個領域縱橫好多年了, 你從tera這個詞就能看出這點. 如果是新兵的話, 名字肯定不會是tera, 這年頭還叫tera, 那也太沒有發展的眼光了. 在國內, 多為不差錢的公司採用, 比如銀行什麼的.

資料倉儲流圖, oltp-->etl-->teradata-->bi

優點: (1)生態環境已經營造的很好了, 無論etl工具還是bi工具都很好地支援. (2) 開箱即用, 甚至將硬體也打包在一起, 省事. (3)成功案例比較多

缺點: (2)巨貴

greenplum, 新銳,

2023年被emc收購, 算是嫁入豪門了(據傳oracle近來有意收購要emc了). 採用share nothing的架構, 支援map-reduce, 後台資料庫基於開源的postgresql資料庫.

資料倉儲流圖, oltp-->etl(或簡單的el)-->greenplum-->bi

優點:(1)因為採用rdbms資料庫, 容易整合現有的etl和bi工具. (2) 能夠執行在所有的x86/x64硬體上, 所以硬體的選擇自由度比較大. (3)線性擴充套件.

缺點:(1)案例還不算多. (2)具有豐富運維經驗的工程師還不多

hadoop+hive, 新兵蛋子, 極具王者風範

網際網路企業用的比較多, yahoo/facebook, 國內阿里系的公司也在用

優點: (1)開源搭配, 免費. (2)網際網路巨人不斷貢獻和完善**, 發展前景不錯. (3)和greenplum一樣, 硬體的選擇自由度大, (4)線性擴充套件

缺點: (1)需要較高的技術儲備, 學習曲線比較陡, 這也是為什麼僅僅在網際網路公司用的比較多. (2)仍在不斷完善中, 換句話講, 現在還不成熟.

考慮到簡化和bi等的整合, 我認為下面是1個比較靠譜的資料倉儲流圖:

oltp(或 結構化文件)-->定製hive的inputformat/outputformat介面卡-->hadoop+hive-->編寫 hive的自定義函式udf (只將必需的資料傳到資料庫)-->rdbms(比如oracle等)-->bi

資料倉儲學習筆記三

太上有立德,其次有立功,其次有立言,雖久不廢,此謂不朽。左傳 簡單解釋 二者的區別 維度表的冗餘很大,主要是因為維度一般不大 相對於事實表來說的 而維度表的冗餘可以使事實表節省很多空間。事實表一般都很大,如果以普通方式查詢的話,得到結果一般發的時間都不是我們可以接受的。所以它一般要進行一些特殊處理。...

資料倉儲 三 之架構篇

架構是資料倉儲建設的總體規劃,從整體視角描述了解決方案的高層模型,描述了各個子系統的功能以及關係,描述了資料從源系統到決策系統的資料流程。業務需求回答了要做什麼,架構就是回答怎麼做的問題。資料倉儲的核心功能從源系統抽取資料,通過清洗 轉換 標準化,將資料載入到bi平台,進而滿足業務使用者的資料分析和...

資料倉儲 三 之架構篇

概述 架構是資料倉儲建設的總體規劃,從整體視角描述了解決方案的高層模型,描述了各個子系統的功能以及關係,描述了資料從源系統到決策系統的資料流程。業務需求回答了要做什麼,架構就是回答怎麼做的問題。架構的價值 資料倉儲架構 資料倉儲的核心功能從源系統抽取資料,通過清洗 轉換 標準化,將資料載入到bi平台...