淺評資料倉儲三大王者

teradata, 當仁不讓的霸主

teradata已經在這個領域縱橫好多年了, 你從tera這個詞就能看出這點. 如果是新兵的話, 名字肯定不會是tera, 這年頭還叫tera, 那也太沒有發展的眼光了. 在國內, 多為不差錢的公司採用, 比如銀行什麼的.

資料倉儲流圖, oltp-->etl-->teradata-->bi

優點: (1)生態環境已經營造的很好了, 無論etl工具還是bi工具都很好地支援. (2) 開箱即用, 甚至將硬體也打包在一起, 省事. (3)成功案例比較多

缺點: (2)巨貴

greenplum, 新銳,

2023年被emc收購, 算是嫁入豪門了(據傳oracle近來有意收購要emc了). 採用share nothing的架構, 支援map-reduce, 後台資料庫基於開源的postgresql資料庫.

資料倉儲流圖, oltp-->etl(或簡單的el)-->greenplum-->bi

優點:(1)因為採用rdbms資料庫, 容易整合現有的etl和bi工具. (2) 能夠執行在所有的x86/x64硬體上, 所以硬體的選擇自由度比較大. (3)線性擴充套件.

缺點:(1)案例還不算多. (2)具有豐富運維經驗的工程師還不多

hadoop+hive, 新兵蛋子, 極具王者風範

網際網路企業用的比較多, yahoo/facebook, 國內阿里系的公司也在用

優點: (1)開源搭配, 免費. (2)網際網路巨人不斷貢獻和完善**, 發展前景不錯. (3)和greenplum一樣, 硬體的選擇自由度大, (4)線性擴充套件

缺點: (1)需要較高的技術儲備, 學習曲線比較陡, 這也是為什麼僅僅在網際網路公司用的比較多. (2)仍在不斷完善中, 換句話講, 現在還不成熟.

考慮到簡化和bi等的整合, 我認為下面是1個比較靠譜的資料倉儲流圖:

oltp(或結構化文件)-->定製hive的inputformat/outputformat介面卡-->hadoop+hive-->編寫 hive的自定義函式udf (只將必需的資料傳到資料庫)-->rdbms(比如oracle等)-->bi