NewSQL體系比Hadoop更具效率

2021-07-11 04:33:44 字數 2018 閱讀 5786

現今,完全放棄傳統關係

資料庫並忙於使用新興的nosql

資料庫可能還不是乙個合理的選擇。相反改進後的sql(結構化查詢語言)系統可能會對一些技術細節進行調整。在8月23日加利福尼亞聖何塞市舉行的nosql 2011大會上分布式資料庫

公司voltdb的首席技術官michael stonebraker表達了上述的觀點。7 c3 h8 d% b, e2 a: o! d

stonebraker所在公司本身提供的是基於newsql的資料庫

軟體。他所倡導的新體系架構比傳統**商提供的資料庫軟體可承受更大的負載。stonebraker是ingres和postgres資料庫的總設計師。他還是vertica(面向列資料庫公司)的共同創始人,惠普已在2月份對vertica進行了收購。( v  f- b) p5 j0 a: ?% _- . k3 {6 g1 x( m

stonebraker指出,當今大多數商業資料庫軟體已經在市場上存在30年或更長

時間。他們的設計並沒有圍繞自動化、資料沉重性以及事務性環境。同時在這幾十年中不斷發展出的新

功能並沒有想象中的那麼好。/ a' q5 q0 c3 ]& l

stonebraker表示資料庫系統的滯後通常可歸結於多項因素。諸如以恢復

日誌為目的的資料庫系統維持的緩衝區池,以及管理鎖定和鎖定的資料字段。在voltdb的

測試中發現以上這些行為消耗系統96%的資源。

許多新興的nosql資料庫的普及,例如mongndb和cassandra。這很好的彌補了傳統資料庫系統的侷限性。顧問dan mccreary表示關聯式資料庫的缺點刺激了

開發人員建立出nosql資料庫。關聯式資料庫不是很靈活,其基本架構設計還是穿孔卡片時代,這反映了嚴格的資料建模方式。如果乙個組織需要新增另一列的資料,他們必須改變架構,這可能相當棘手。建模過程中建立的關係表(實體模型)也並不總是能夠準確的反應資料在現實世界中是

如何存在的。

mccreary同時指出sql資料庫的另乙個問題是其不具備很好的伸縮性。當資料增長超過一台

伺服器所能承受的極限時,就必須分享或分割資料到多台伺服器上,跨越多台伺服器是乙個複雜的過程。此外如外部鏈結帶來的問題。例如多個表中資料的融合,跨越伺服器執行一些操作可能會產生一些問題。! o$ t9 @3 k3 d6 m

stonebraker認為nosql資料庫可提供良好的擴充套件性和靈活性,但他們也有自己的不足。由於不使用sql,nosql資料庫系統不具備高度結構 化查詢等特性。nosql其他的問題還包括不能提供acid(原子性、一致性、隔離性和耐久性)的操作。另外不同的nosql資料庫都有自己的查詢語言, 這使得很難規範

應用程式

介面。

stonebraker表示newsql可提供sql獨有的一些特性,同時還具備nosql的擴充套件性。newsql具備乙個新的架構設計,他釋放了主記憶體 執行的資料庫中消耗系統資源的緩衝池。voltdb系統使用了newsql創新的體系架構,在執行交易時可比傳統關聯式資料庫快45倍。voltdb可擴充套件 伺服器數量為39個,並可以每秒處理160萬個交易(300個cpu核心)。而具備同樣處理能力的hadoop則需要更多的伺服器。例如做相同的任 務,voltdb需要20個節點的任務,hadoop執行起來則需要1000個節點。/ i3 g4 j+ s6 [' u6 j' s6 q6 |

doubleclick創始人和mongodb創始人之一dwight merriman與stonebraker一致認為sql本身並不是導致可擴充套件性和低效能的根源。但dwight merriman同時表示在未來的歲月裡,可能不是所有人都願意使用sql

分析和查詢他們的資料。因為對於

程式設計師來說,基於sql的儲存過程是特別困難的工作。

最後mccreary也同意stonebraker的看法,nosql沒有乙個統一的查詢語言,這將拖慢nosql的發展。但他建議在新的資料庫系統統一查詢工具使用乙個sql以外的語言。如xquery,乙個xml文件查詢語言。

Hadoop生態體系

1.hadoop的優勢 2.hdfs架構概述 3.yarn架構概述 4.mapreduce架構概述 mapreduce將計算過程分為兩個階段 map和reduce,如圖2 6所示。1 map階段並行處理輸入資料 2 reduce階段對map結果進行彙總 5.大資料技術生態體系 圖中涉及的技術名詞解釋...

Hadoop 生態體系

hadoop是乙個開源的大資料框架,是乙個分布式計算的解決方案。hadoop的兩個核心解決了資料儲存問題 hdfs分布式檔案系統 和分布式計算問題 mapre duce 舉例1 使用者想要獲取某個路徑的資料,資料存放在很多的機器上,作為使用者不用考慮在哪台機器上,hd fs自動搞定。舉例2 如果乙個...

Spark 為什麼比Hadoop快

spark sql比hadoop hive快,是有一定條件的,而且不是spark sql的引擎比hive的引擎快,相反,hive的hql引擎還比spark sql的引擎更快。color red b 其實,關鍵還是在於spark 本身快。b color color red size large b s...