九頭蛇與大象之爭,Hydra或將取代Hadoop

2021-06-20 23:35:58 字數 1973 閱讀 2117

csdn推薦:歡迎免費訂閱《hadoop與大資料週刊》獲取更多hadoop技術文獻、大資料技術分析、企業實戰經驗,生態圈發展趨勢。

以下為譯文:

hydra(九頭蛇),分布式任務處理系統,由社交標籤服務提供商addthis六年前開發,現在已得到apache的開源許可,就像hadoop一樣,只是還沒有hadoop那樣的知名度和聲勢。hydra的創造者稱,該「多頭」平台非常擅長處理一些大的資料任務——對非常大的資料集進行實時處理,這樣的任務恐怕會讓那只大象(hadoop)很頭疼。

hadoop仍然是乙個儲存大量資料的優秀平台,但很多公司面臨著另乙個問題,我們將資料儲存到hadoop之後如何去分析資料,無論是hive還是pig都需要方便地訪問hadoop中的資料,才能從中獲得的價值。正如我們看到的:hadoop用於實時分析並不合適。

hydra是乙個大資料儲存和處理平台,由matt abrams和他的addthis同事們共同開發完成。addthis也就是過去的clearspring,是開發web伺服器視窗小部件的公司,使訪問者可以通過twitter、facebook、pintrest、google +或者instagram輕鬆共享他們的資料。

當addthis開始逐漸擴大其業務時,它對越來越多的使用者資料漸漸感到無能為力。該公司需要乙個可擴充套件的分布式系統,對其使用者共享的這些資料進行實時分析。那時hadoop無法滿足addthis的需求,所以它開發了hydra。

那麼,hydra到底是什麼?簡而言之,它是分布式的任務處理系統,可以同時支援流處理和批處理。它利用一種基於樹的資料結構來儲存和處理具有數千個節點集群的資料。它具有乙個基於linux的檔案系統,這使得它可以與ext3、ext4甚至zfs相容;它還具有作業/集群管理元件,可以自動為集群分配新的作業和平衡已有的作業;系統還可以自動將資料備份,並自動處理節點故障。

hydra包括很多的元件:跨異構集群處理任務的分布式作業執行系統、可網路訪問的檔案服務系統,還有本地備份及遠端備份(考慮到難以預防的節點故障)。

基於樹形結構使它可以在同一時間處理流資料並進行批處理作業。addthis工程部門的一位成員chris burroughs在他1月23日的部落格中首次宣布hydra開源,還提供了對於hydra精闢的描述:「它攝取流資料(比如日誌檔案),並生成聚合樹、 摘要樹或者資料轉換樹,這些樹可用來探索(小型查詢),作為機器學習的一部分(大型查詢)、或者在**上支援實時控制臺(大量的查詢)。」

hydra最初是用以幫助addthis解決自身問題,供內部使用,以及為**運營商提供服務。典型的問題包括:「上個月有多少使用者訪問**?」以及「**從不同國家和瀏覽器獲得訪問量分別有多大?」

abrams通過郵件告訴datanami:「我們處理大型資料集已經很長時間了,hydra一直以來對我們都非常有用,我們覺得它以獨特的方式解決了分布式資料處理的問題。」

傳統的hadoop面向批處理,而hydra可以同時支援批處理和實時流處理。abrams說:「hydra支援的批處理主要側重流分析和增量資料處理,能夠使用樹形資料結構描述資料,對自然資料進行壓縮及高效查詢和訪問。hydra可以從hdfs中生產和接受資料,但它在本機檔案系統上完成操作,這使其可以在hydra上靈活地使用其他服務。」

現在hydra已經開源,abrams希望該軟體會被更加廣泛的使用,並得到更好的發展。「這將需要一些時間,但我們相信未來我們將建成乙個完善的hydra開源社群,這樣addthis和os(開源)社群都可以從hydra未來的發展中受益。在華盛頓特區已經有一些其他公司在使用hydra了,我們很期待hydra社群得到進一步的發展。」

2013秋天,doug cutting,hadoop的創始人也是cloudera的首席架構師感嘆hadoop缺乏替代品——那時cutting說:「我多麼期待能有更多像hadoop一樣的系統出現……」雖然如今hadoop在大資料界佔據了主導地位,但誰又能說它會是唯一的乙個大資料分布式計算平台?相信未來hydra的發展不會令他失望,對於未來hydra的發展,我想引用cutting的另一句話:「天空才是極限。」

猴子與大象 員工與老闆

從前,在乙個叫 隱喻 的島上,住著乙隻猴子和乙隻大象。他們都住在一條寬闊 水流湍急的河水的一邊。河水兩岸長滿了果樹。猴子很敏捷。他能夠爬到果樹的頂部,盡情地吃水果。大象很高。他能夠用軀幹夠著果實並盡情享受。但是果樹越長越高。很快大象就夠不著果實,也就吃不飽了。但是他很強壯,能夠自給自足。他發現當他飢...

貪吃的九頭龍

傳說中的九頭龍是一種特別貪吃的動物。雖然名字叫 九頭龍 但這只是說它出生的時候有九個 頭,而在成長的過程中,它有時會長出很多的新頭,頭的總數會遠大於九,當然也會有舊頭因衰老而自己脫落。有一天,有 m 個腦袋的九頭龍看到一棵長有 n個果子的果樹,喜出望外,恨不得一口把它全部吃掉。可是必須照顧到每個頭,...

貪吃的九頭龍

時間限制 2 sec 記憶體限制 128 mb 提交 57 解決 22 提交 狀態 我的提交 傳說中的九頭龍是一種特別貪吃的動物。雖然名字叫 九頭龍 但這只是說它出生的時候有九個頭,而在成長的過程中,它有時會長出很多的新頭,頭的總數會遠大於九,當然也會有舊頭因衰老而自己脫落。有一天,有m 個腦袋的九...