「NoHadoop」? 新一代海量資料架構分析

2021-05-23 18:27:52 字數 2304 閱讀 8162

在經歷了長達25年的統治地位後,關係型資料庫正面臨越來越火的「nosql」挑戰,而挑戰者是以hadoop為代表的分布式計算開源架構。可以看到,越來越多的訊息表明,不管nosql是被解釋為「no sql」還是「not only sql」,如果你面臨海量資料的挑戰,那麼你最應該選的海量資料架構是hadoop。

但是hadoop就能代表一切嗎?答案顯然是否定的,hadoop的mapreduce在效能上的確是有侷限性的:比如mapreduce沒有索引,只有靠強大的運算能力來處理;此外,mapreduce本身存在一些lower-level實現的問題, 特別是skew和資料交換等等。

因此有些人開始回到關係型資料庫上,因為相比較hadoop的處理能力,一些sql架構依然呈現數量級的優勢。

也許,我們現在正處於乙個新的「nohadoop」時代,因為越來越多的企業開始認識到,海量資料處理僅有hadoop是不夠的。在他們看來,簡單的批處理工具比如mapreduce和hadoop恐怕並不足以應付將來更大的資料結構。誠然,大多數的比較複雜的海量資料處理我們也許能夠用hadoop就足以對付——也許更多的是乙個無奈選擇。它們可能涉及更複雜的連線,比如acid需求、實時要求、超級計算的演算法、圖形計算、互動分析或者連續增量的需求等等。

事實上,hadoop之所以受到越來越多的人歡迎,原因在於它對於海量資料的處理方式,而且,最重要的是,它是免費的。

但是隨著對海量資料處理的應用程式效能需求不斷增加,我們會發現,在很多領域,我們需要除了hadoop以外的更多的海量資料處理方式。

那麼,我們應該怎樣看待下一代分布式計算架構呢?或者說,「nohadoop」的架構應該是怎樣的呢?從效能上而言,下一代的架構需要在mapreduce/hadoop的基礎上有10——10000倍的效能提高。

在每一種應用下,都有新一代的資料架構,可以提供所需的規模和效能。在未來的幾年內,這些架構中的某些也許會成為主流。

1、sql:資料庫已經有了25年的發展歷史。大量的創新正在圍繞資料庫技術,比如voltdb、clustrix等等(也許下一代產品不應該再稱為資料庫),但當你需要處理複雜的連線,或需要acid需求時,資料庫依然是你最好的選擇。

2、cloudscale:在海量資料上的實時分析,它打破了自由批量處理的限制。比如,當你打算分析一台百萬次的伺服器中發生的事件流,你需要乙個真正的實時資料流體系結構。而cloudscale架構提供的這種實時資料分析能力,比hadoop的批處理系統快了近10000倍。

應用場景:商業演算法,欺詐檢測,手機廣告、位置服務、市場情報。

3、mpi和bsp:相當多的超級計算機應用中,需要在海量資料上建立複雜的演算法,為了實現規模效應,需要對處理器的直接訪問呼叫以提高計算的速度。在平行計算中,mpi和bsp這些工具是進行高效能計算的必要。

應用場景:建模與**系統,流體動力學。

4、pregel:當你需要分析乙個複雜的社交網,或者是要分析網路的時候,面對的不是資料的問題,而是乙個很大的圖形。我們面臨的現狀是,大規模的動態圖形正成為一些應用的關鍵。google的pregel結構採用了bsp模型,以便能夠進行規模化、高效的圖形計算。

應用場景:演算法,演算法的結構圖,地理位置圖,網路優化等

5、dremel:這是乙個需要與網路進行大規模互動的資料集。google的dremel的設計原理在於支援幾秒內萬億行命令的執行,並提供即時查詢。而它的查詢執行並沒有採用mapreduce 的功能。自從2023年以來dremel誕生以來,已經有了成千上萬的使用者。

應用場景:資料搜尋、客戶支援、資料中心監控。

6、percolator (caffeine) :如果需要對龐大的資料增量進行不斷更新,你會發現,percolator是一種很好的實現方式,這也是google在新的索引系統上採用的架構,google的即時搜尋引擎instant不能沒有它。「由於索引內容可以逐步增加,採用以percolator的google caffeine系統檢索速度將百倍於之前採用hadoop的分布式資料處理方式。」

應用場景:實時搜尋

作者簡介:bill mccoll:cloudscale創始人和首席執行官,牛津大學計算科學系主任,負責平行計算研究中心。

新一代海量資料架構分析 NoHadoop

但是hadoop就能代表一切嗎?答案顯然是否定的,hadoop的mapreduce在效能上的確是有侷限性的 比如mapreduce沒有索引,只有靠強大的運算能力來處理 此外,mapreduce本身存在一些lower level實現的問題,特別是skew和資料交換等等。因此有些人開始回到關係型資料庫上...

「NoHadoop」? 新一代海量資料架構分析

在經歷了長達25年的統治地位後,關係型資料庫正面臨越來越火的 nosql 挑戰,而挑戰者是以hadoop為代表的分布式計算開源架構。可以看到,越來越多的訊息表明,不管nosql是被解釋為 no sql 還是 not only sql 如果你面臨海量資料的挑戰,那麼你最應該選的海量資料架構是hadoo...

新一代IM工具

深圳kc公司推出的 第二代即時通訊 軟體 kc不僅分文不取,還在各種深度im應用以外提供了眾多傳統的 有償服務 如每月300條簡訊 每月10分鐘國內長途 等等,而這些都是免費的!下面我們就來一睹這款軟體的真容!keep contact 簡稱kc 是一款新型的免費即時通訊 軟體。它集合網路 簡訊 彩信...