Hadoop之後 大資料的未來

2021-09-23 02:49:09 字數 2093 閱讀 4422

zdnet至頂網伺服器頻道 04月03日 :在實時資料世界裡,為什麼我們還這麼執著於hadoop?根據451 research調查資料顯示,圍繞批處理架構的hadoop仍然是大資料[注]的代表技術,儘管其聲譽仍然超過實際部署情況。

還沒有真正部署hadoop的企業可能想要再等一等。而隨著apache spark等其他技術(storm、kafka等)的出現,我們似乎與hadoop的批處理漸行漸遠,逐漸轉向實時資料的未來。

批處理不是重點

cloudera的doug cutting是乙個非常聰明的人,也是開源開發人員,hadoop、lucene等大資料工具的開發都有他的功勞。

雖然cutting承認實時流**技術的重要性,但他並沒有否認面向批處理的hadoop的價值,他表示:並不是因為我們覺得批處理是最好的,所以hadoop圍繞批處理而構建。批處理(特別是mapreduce)很自然是第一步,因為它相對容易部署,並提供很重要的價值。在hadoop之前,沒有辦法使用開源軟體在商品硬體儲存和處理千兆位元組。hadoop的mapreduce是很大的進步。我們很難說清楚大資料的商品化對這個世界的重要性。這並不是說在hadoop之前我們沒有儲存和分析大量資料,而是hadoop讓我們非常廉價地實現這個過程。

總之,hadoop民主化了大資料。

轉向流資料?

然而,hadoop並沒有讓大資料分析變得容易。正如datastax首席布道者patrick mcfadin表示,從企業資料探勘價值並沒有那麼簡單:我們都聽說過儲存和分析pb級資料的投資回報率的問題。谷歌、雅虎和facebook都在從中創造驚人的價值,而大部分企業都在試圖研究如何分析所有資料,第一:收集所有資料;第二:解析所有資料;第三:利潤!在資料收集和利潤之間有很多麻煩的步驟。隨著企業試圖加快對實時資料的分析能力,新技術為他們提供了可能。

mcfadin發現了這個新大資料堆疊的關鍵要素。首先是乙個排隊系統,kafka、rabbitmq和kinesis等。然後是流處理層,這可能包括storm、spark streaming或者samza。對於高速儲存,企業經常轉向cassandra、hbase、mongodb或者mysql等關係型資料庫。

最有趣的是批處理仍然有用武之地。mcfadin表示,批處理現在可用於處理,即彙總和更深入的分析。批處理和實時的融合被稱為「lambda架構」,這涉及讓三個元素和諧地共處:批處理、速度和服務。

換句話說,批處理仍然有用。

淘汰批處理

但並不是每個人都同意。zoomdata公司首席執行官和聯合創始人justin langseth認為lambda是「不必要的」,並稱,「現在有端到端工具可以從採購、運輸、儲存到分析和視覺化來處理資料,而不需要批處理」。在他看來,批處理是大資料過去的遺留物:實時資料顯然最好應該作為流來處理,而且還可以載入歷史資料,正如你的dvr可以載入電影《飄》或者上週的電視節目《美國偶像》到你的電視。這種區別很重要,zoomdata認為將資料作為流來分析可以增加可擴充套件性和靈活性,而無論資料是實時還是歷史資料。

然而,超越可擴充套件性和靈活性好處的可能是將批處理從大資料過程移除所帶來的簡單性。langseth認為,「當你不需要擔心批處理視窗以及從批處理故障中恢復時,這可以極大地簡化大資料架構。」

流分析取代hadoop?

cutting稱,還沒有那麼快,cutting認為未來hadoop等技術並不會完全被淘汰,流分析會得以發展,cloudera的enterprise data hub也是一樣。事實上,他不認為會廣泛轉向流分析,而是為大家帶來了又一種選擇。

更有趣的是,大資料的大**會讓行業催生出一些好方法來應對資料處理。

我認為我們不會再那麼頻繁地看到spark這樣的主要技術增加,隨著時間的推移,我們將會標準化這些工具,為大多數人提供功能來滿足其大資料應用需求。hadoop帶來了技術**,但我們可能會進入比較正常的演化過程,在各行業廣泛使用這些技術。

datastax社群經理scott hirleman同意說:「批處理並不會消失,總是會需要對大量資料的大規模分析。」現在大家對流分析有極大的興趣,但稱現在還不清楚這種趨勢對大資料計畫的影響。

總之,流分析完全是關於「和」,而不是「或者」,這是對圍繞批處理系統(例如hadoop)的很好的補充,但這肯定不會完全取代hadoop。

原文發布時間為:2023年04月03日

Hadoop之後 大資料的未來

在實時資料世界裡,為什麼我們還這麼執著於hadoop?根據451 research調查資料顯示,圍繞批處理架構的hadoop仍然是大資料 注 的代表技術,儘管其聲譽仍然超過實際部署情況。還沒有真正部署hadoop的企業可能想要再等一等。而隨著apache spark等其他技術 storm kafka...

未來大資料時代,Hadoop會被Spark取代

由雅虎為工程師和資料科學家打造的apache hadoop曾因巨大的潛力而備受稱讚,但如今它卻受到了更快的產品的影響,而這些產品往往來自於它本身的生態系統 spark就是其中之一。今年早些,h20.ai的創始人sri ambati對datanami 曾說 spark將會使hadoop處於絕地 但在過...

大資料 hadoop的api

j a操作hadoop的api,1 引入依賴,注意與伺服器的版本匹配。hadoop core的版本最高是2.1.1,不要再用,否則可能會報server ipc version錯 dependency groupid org.apache.hadoop groupid artifactid hadoo...