大資料生態之起源 Hadoop

說起大資料生態體系的起源，不得不提doug cutting，這位大資料技術始祖級的人物，在google的影響下為我們帶來了大資料生態體系中最原始也最重要的部分—hadoop。

doug cutting，上圖居中著，身高一公尺八往上，其貌不揚，為人謙遜，因其兒子喜歡的玩具為技術發明命名。

1985，畢業於史丹福大學。

1997，發布lucene，第乙個全文文字搜尋開源函式庫（流行搜尋引擎solr和elasticsearch的基石）。

2010，當選apache software foundation主席。

2015，被o』reilly授予open source award榮譽。（同樣被授獎的還有ceph作者、nodejs作者等，開源人士夢寐以求的大獎）

dc先生研發hadoop，其靈感**於google發表的兩篇**。gfs是google最初使用的分布式檔案系統。mapreduce最早是由google研究提出的一種面向大規模資料處理的平行計算模型和方法，其初衷主要是為了解決搜尋引擎中大規模網頁資料的並行化處理。由於mapreduce可以普遍應用於很多大規模資料的計算問題，google進一步將其廣泛應用於很多大規模資料處理問題。到目前為止，google有上萬個各種不同的演算法問題和程式都使用mapreduce進行處理。

google的**發表不久，2023年，dc基於google的gfs和mapreduce開始研究如何使網頁評分演算法執行速度更快的方式。2006，發布hadoop，同年加入yahoo，yahoo強大的研發陣容為dc的研究提供了強大的保障。2008，發布計算網頁間鏈結關係的webmap演算法，在相同的硬體環境下，基於hadoop的webmap的反應速度是之前系統的33倍。

google**題目

發表年份

the google file system

2003

mapreduce: simplified data processing on large clusters

2004

2023年，是真正大資料技術生態的元年，其標誌就是hadoop的誕生，這時的生態由hadoop的通用基礎庫、分布式檔案系統hdfs（hadoop distributed file system）和計算框架mapreduce構成，如下圖所示。

此後，圍繞hadoop核心，其他大資料元件如雨後春筍般地出現，相繼進入大資料生態體系，

hive來了，mr程式設計模型**太多，將傳統mr的實現抽象成程式設計師最熟悉的sql;

spark來了，mr計算中間結果存放在磁碟上，多次io效率低下，spark將中間計算結果放入記憶體，將計算速度提公升了兩個量級；

hbase來了，傳統資料庫無法動態增加字段，無法解決表稀疏問題，hbase為此而生

……每一種大資料元件都有其解決的問題，每一種元件互相配合、相輔相成、爭奇鬥艷，發展到後期2023年元件達到了100多種，在計算機技術領域裡，型別如此之多、數量如此之大，恐獨此乙份了！最全大資料生態圖見下：

大資料生態之起源 Hadoop

大資料入門之Hadoop生態系統概述

大資料生態

大資料時代之hadoop 了解hadoop資料流

大資料生態之起源 Hadoop

大資料入門之Hadoop生態系統概述

大資料生態

大資料時代之hadoop 了解hadoop資料流

相關推薦