跌下神壇的Hadoop 過度炒作還是理性選擇?

2021-09-23 09:20:53 字數 1687 閱讀 5152

長期以來,hadoop 這個詞鋪天蓋地,幾乎成了大資料的代名詞。三年之前,提起超越 hadoop 這件事,似乎還顯得難以想象。但三年後的今天,這一情況發生了一些改變。

早在 2012 年,知名** siliconangle 就針對 twitter 平台上的大資料專業人士做了一項調查。調查結果顯示:這些專業人士日常談論 nosql 等技術(如 mongodb)的次數要遠多於 hadoop。這表明,至少在資料科學家的群體中,用 hadoop 代指大資料似乎並不準確。

不過,在大部分人的印象中,hadoop 目前已經是大資料行業最重要的技術之一,是構建今天的常見資料庫的基礎。不但如此,hadoop 還在其他一些領域積極拓展著自己的應用範疇,例如倉儲系統等。

然而令人驚訝的是,最近行業裡開始傳出一種聲音:hadoop 的市場占有率已經出現了明顯的停滯不前。甚至 ibm 的大資料宣傳人員 james kobielus 還公開表示:「hadoop 在大資料領域的頹勢比我預期的還要嚴重。」

要明確 hadoop 究竟為什麼會停滯不前,似乎很複雜,但這種說法也可能是大資料行業裡一種比較常見的現象。據 gartner 在2023年的研究顯示,市場上有高達 54% 的公司並沒有投資 hadoop 的打算,而 44% 的公司已經或計畫在未來兩年內採用 hadoop。這些數字在不同人看來可能會得到不同的結論:有些人會認為這意味著 hadoop 在進一步的擴張,但同時也會有人認為 hadoop 已經顯出了頹勢。

上述事實或許可以表明:單純從 hadoop 的市場占有率來推斷其發展態勢似乎有些片面了,因為還有許多公司並非不想採用 hadoop,只是他們發現很難利用現有的技術團隊充分挖掘 hadoop 的應用價值,實際上,他們只是需要更多的專業知識

另乙個值得關注的因素是資料量。hadoop是專門針對海量資料而設計的,就像一位資料科學大牛之前在 kd nuggets **的文章中所描述的那樣:如果你的企業中沒有海量的資料,那就不需要 hadoop。這也是為什麼許多公司對他們只有 2tb 到 10tb 的 hadoop 集群感到失望的原因,因為 hadoop 技術在這樣的資料儲量下根本無法發揮其最大的價值。

還有乙個不容忽視的現象是:目前有大量的公司其實並沒有足夠的資料量來推動 hadoop 發揮其應有的效力,但是為了充門面、趕潮流還是採用了 hadoop 框架。然後經過幾年的實踐,與真正懂行的資料科學家們共事之後,才最終意識到,以他們的資料積累,其實存在著比 hadoop 更簡單、更合適的技術選擇。

事實上,對一些公司來說,採用hadoop框架已經產生了實際的財務問題。cloudera 和 hortonworks 就是通過 hadoop 框架搭建其產品的最大的兩家公司,但是從 2015 年中期以來,他們的股價已經分別**了 40% 和 68%。

最後,原作者在文末表示,上述關於 hadoop 的批評或許顯得苛刻,需要澄清的一點是:並非 hadoop 框架本身的缺陷造成了目前的停滯不前。相反,hadoop 的問題應該歸咎於市場上無休止的炒作和誇大。雖然許多公司跟風採用了 hadoop 技術,但卻並沒有深刻理解它,也不清楚它正確的使用方法,因而也就無法發揮最高的執行效率,這才導致了 hadoop 的頹勢。但是,原作者強調,hadoop 仍然是一種具有強大生命力的技術,只是人們需要更深刻地認識它。

馬雲對996的表態,會讓他跌下神壇嗎?

近日,馬雲在微博發聲,談到了時下最熱門的996工作制問題。馬雲表示,任何公司不應該,也不能強制員工996 阿里巴巴從來也都提倡,認真生活,快樂工作!但是年輕人要明白,幸福是奮鬥出來的!不為996辯護,但向奮鬥者致敬!現在社會上很多企業實行的是996工作制,有些企業還強制推行996工作制。所謂996工...

走下神壇的獵頭

以前聽到獵頭這個詞,感覺很高雅,對從事的工作頂禮膜拜,因為認識的都是牛人,感覺有一天跟獵頭能盼上關係,自己也不得了,至少得到了社會的認可,感覺獵頭找的工作都是非常高階 體面的工作。而如今滿大街都是獵頭,魚目混雜,人人都成了獵頭了,就好像好過年前搞it的一樣,說出來感覺就像搞高科技一樣充滿了自豪感,代...

請描述一下Hadoop的shuffle過程

hadoop的shuffle過程分為map端和reduce端。map端 map端會處理輸入資料並產生中間結果,這個中間結果會寫到本地磁碟,而不是hdfs。每個map的輸出會先寫到記憶體緩衝區中,當寫入的資料達到設定的閾值時,系統將會啟動乙個執行緒將緩衝區的資料寫到磁碟,這個過程叫做spill。在sp...