Doug Cutting 搜尋之父

2021-10-17 03:43:14 字數 2759 閱讀 4256

doug cutting 看到他兒子在牙牙學語時,抱著黃色小象,親暱的叫 hadoop,他靈光一閃,就把這技術命名為 hadoop,而且還用了黃色小象作為標示 logo,不過,事實上的小象瘦瘦長長,不像 logo 上呈現的那麼圓胖。「我兒子現在 17 歲了,所以就把小象給我了,有活動時就帶著小象出席,沒活動時,小象就丟在家裡放襪子的抽屜裡。」 doug cutting 大笑著說。

2023年,cutting畢業於美國史丹福大學。他並不是一開始就決心投身it行業的,在大學時代的頭兩年,cutting學習了諸如物理、地理等常規課程。因為學費的壓力,cutting開始意識到,自己必須學習一些更加實用、有趣的技能。這樣,一方面可以幫助自己還清貸款,另一方面,也是為自己未來的生活做打算。因為史丹福大學座落在it行業的「聖地」矽谷,所以學習軟體對年輕人來說是再自然不過的事情了。

2023年,cutting和同為程式設計師出身的mike cafarella決定開發一款可以代替當時的主流搜尋產品的開源搜尋引擎,這個專案被命名為nutch。doug cutting 希望以開源架構開發出一套搜尋技術,類似於現在的 google search 或是微軟的 bing,剛好 2004 年 google labs 發布了關於自家大資料分析、mapreduce 演算法的**。doug cutting 利用 google 公開的技術擴充他已經開發出來的 lucene 搜尋技術,進而打造出了 hadoop。

2023年專案成立的一開始,「hadoop」這個單詞只代表了兩個元件——hdfs和mapreduce。到現在,這個單詞代表的是「核心」(即core hadoop專案)以及與之相關的乙個不斷成長的生態系統。這個和linux非常類似,都是由乙個核心和乙個生態系統組成。

hadoop 是基於開放源**所建構,用於分布式處理和分析電腦集群上的巨量資料集,也可以想成是乙個能夠儲存並管理大量資料的雲端平台。它主要有兩個核心技術,分別是分布式檔案系統(hadoop distributed file system,hdfs)以及 mapreduce 技術。正因為透過多節點分工來處理巨量資料,解決了檔案儲存的問題,同時也大幅縮短了運作時間,讓 hadoop 成了大資料的主流技術,知名大企業如google、facebook、沃爾瑪、銀聯、聯通、台積電等,都利用了 hadoop 技術。

doug cutting 指出,hadoop 與機器學習、ai 有高度關聯性,要訓練、測試、評價人工智慧都需要資料,許多開發者在 hadoop 平台上寫了很多應用程式,可以利用這個平台蒐集各種巨量資料,支援 ai 和機器學習的資料也是**性成長,很難有一家公司可以做到提供這麼大量的工具。

現在,doug cutting 的身份除了是 hadoop 之父外,也是 cloudera 的首席架構師。cloudera 可以說是 hadoop 生態圈裡最知名的公司,核心產品是為企業客戶搭建基於 hadoop 的大資料平台,幫助企業安裝、配置、執行 hadoop 以進行海量資料的處理、分析以及機器學習。

doug cutting給2017寄語時,指出五種讓開源專案成功的方法:

1. 擁抱開源的不斷改變和演進

不斷地變化,這是每乙個剛接觸開源技術的人需要學習的第一課,也是開源有別於傳統軟體的最大不同之處。開源的本質是易變、靈活,它的新專案常常起源於一些特別的用例。這種動態的迴圈促使產品變得更好、更快。因此,公司如果想從開源獲得完全的好處,他們必須對技術轉變保持開放的心態。spark和mapreduce的辯論就完美的體現了這點的重要性:

事實上,人們在構建新的應用時,mapreduce用得越來越少,而spark成為他們預設的資料處理引擎。mapreduce正逐漸成為hive、pig的底層引擎,這並不意味著它過時了。它還會為現存應用很好地工作很多年,而且對某些大規模批量載入來說仍然是卓越的工具。這一趨勢遵循開源技術的自然演進:mapreduce是開源資料生態系統的1.0引擎,spark是2.0,而某一天會出現3.0讓spark成為歷史。

2. 當引入乙個新技術棧時,從小開始、由上而下

3. 仔細挑選開源軟體以避免雲**商**

隨著使用雲計算的企業組織和產業越來越多,應該考慮到開源軟體不僅會帶來越來越好的健壯性、可擴充套件性和安全性,而且也可以幫助他們避免被雲**商**。通過開源平台的構建,組織可以採用雲**商套利以降低成本,可以使用不同地域的不同雲,或者基於雲和內部部署的混合方式。事實上,開源平台已經證明了自己的技術優越性,2023年也許會取得更多的落地。大量的機構通過開源專案進行合作,單一的**商要去競爭是很困難的。例如,現在那些開源資料系統在效能和靈活性上就處於領先地位,並且改進得更加迅速。

4. 對求職者來說,開源生態環境裡要關注森林,而不是樹木

it領域的求職者,不管是程式設計還是資料科學,不應該僅僅專注於掌握個別技術,而應該關注理解開源資料生態系統各個組成部分的最佳利用,以及如何把它們連線起來解決問題。這種上層建築的理解是企業在技術創新中最有價值的技能。隨著新技術的到來,至關重要的是了解它們的適應力如何、它們能取代什麼、它們能做到什麼。

5. 在技能缺口中尋找機會

大資料的技能缺口將在明年保持相對穩定,但這不應該成為人們採用hadoop以及其它開源技術的阻礙。大多數人都知道,當新的技術被創造出來並爭奪使用者時,它們對外界而言是很陌生的。只有當乙個特定型別的軟體成為某個規範的成熟而標準的一部分,才會開始出現大量熟練使用它的人,而即使如此仍然會存在技能缺口。只有當我們不再對技術棧做大的改進時,才會消除這種缺口,不過doug不認為我們會希望這樣做。簡而言之,技能缺口是影響平台變革速度的主要因素之一,也是即將來臨的創新的標誌。

Linux之父Linus Torvalds宣布退休

在核心郵件列表上,linus torvalds 宣布發布 linux 4.19 rc4,同時宣布了乙個重大訊息 他將抽身離開反思一段時間,為過去的言行向社群道歉,他已經要求穩定版核心維護者 greg kroah hartman 接替他完成 4.19 的工作。torvalds 因為弄錯了核心維護者峰會...

開源之父 Linus

很多人都知道,linus在1991年建立了開源的linux,從此,linux系統不斷發展,已經成為最大的伺服器系統軟體了。linus雖然建立了linux,但linux的壯大是靠全世界熱心的志願者參與的,這麼多人在世界各地為linux編寫 那linux的 是如何管理的呢?事實是,在2002年以前,世界...

多型之父子爭權

多型之父子爭權 模範青蛙 在談及這個問題之前,先說一下多型的三個前提條件 1.存在類的繼承 2.存在方法的重寫 3.父類引用指向子類物件 很多童鞋在多型這一塊兒存在一些疑慮 什麼時候呼叫父類的東西呢?什麼時候又是呼叫子類的東西呢?好迷茫。針對這一問題,咱們來結合例子簡單分析一下 看下面的乙個簡單的例...