大資料 Hadoop簡述

2022-03-11 12:35:53 字數 2253 閱讀 9612

摘要:1個人(doug cutting)、2個公司(google、cloudera)

命名由來:doug cutting 起先給他孩子的1個棕色的大象的玩具的名字(簡短、容易發音、易於拼寫)

最初的模組: hdfs 與 mapreduce (後期不斷加入hbase、hive等子模組專案,直至最終hadoop泛化成為雲計算與大資料產業鏈中的1個超大概念)

2023年 mapreduce:simplified data processing on large clusters

2023年 bigtable: a distributed storage system for structured data

[推薦文獻]

推薦此文:sqoop學習之路 (一) -

(1)2023年成立的cloudera是最早將hadoop商用的公司,為合作夥伴提供hadoop的商用解決方案,主要是包括支援、諮詢服務、培訓。

(2)2023年hadoop的創始人doug cutting也加盟cloudera公司。cloudera產品主要為cdh,cloudera manager,cloudera support

(3)cdh是cloudera的hadoop發行版,完全開源,比apache hadoop在相容性,安全性,穩定性上有所增強。

(4)cloudera manager是集群的軟體分發及管理監控平台,可以在幾個小時內部署好乙個hadoop集群,並對集群的節點及服務進行實時監控。cloudera support即是對hadoop的技術支援。

(5)cloudera的標價為每年每個節點4000美元。cloudera開發並貢獻了可實時處理大資料的impala專案。

(1)2023年成立的hortonworks是雅虎與矽谷風投公司benchmark capital合資組建。

(2)公司成立之初就吸納了大約25名至30名專門研究hadoop的雅虎工程師,上述工程師均在2023年開始協助雅虎開發hadoop,貢獻了hadoop80%的**。

(3)雅虎工程副總裁、雅虎hadoop開發團隊負責人eric baldeschwieler出任hortonworks的首席執行官。

(4)hortonworks的主打產品是hortonworks data platform(hdp),也同樣是100%開源的產品,hdp除常見的專案外還包括了ambari,一款開源的安裝和管理系統。

(5)hcatalog,乙個元資料管理系統,hcatalog現已整合到facebook開源的hive中。hortonworks的stinger開創性的極大的優化了hive專案。hortonworks為入門提供了乙個非常好的,易於使用的沙盒。

(6)hortonworks開發了很多增強特性並提交至核心主幹,這使得apache hadoop能夠在包括window server和windows azure在內的microsoft windows平台上本地執行。定價以集群為基礎,每10個節點每年為12500美元。

華為fusioninsight 是基於開源社群軟體hadoop 進行功能增強,提供企業級大資料儲存、 查詢和分析的統一平台,幫助企業快速構建海量資料資訊處理系統。

通過對各類海量資料資訊進行實時和非實時的分析和挖掘,幫助企業從海量資料資訊中獲取到真正的價值,及時洞察和決策新的機會與風險。

fusioninsight hd 2.6 大資料平台的邏輯架構圖如下,包含:

2014 《資料之巔》 阿里巴巴副總裁涂子沛

2016 《為資料而生》電子科技大學計算機學院周濤教授(第1本書的譯者)

2017 《hadoop大資料開發 - 案例教程與專案實戰》 人民郵電出版社

博文

hadoop大資料與hadoop雲計算

hadoop入門課程 hadoop大資料與hadoop雲計算,hadoop最擅長的事情就是可以高效地處理海量規模的資料,這樣hadoop就和大資料及雲計算結下了不解之緣。本節將先介紹與大資料相關的內容,然後講解hadoop 大資料以及雲計算之間的關係,使讀者從大資料和雲計算的角度來認識hadoop。...

大資料時代之hadoop 了解hadoop資料流

了解hadoop,首先就需要先了解hadoop的資料流,就像了解servlet的生命週期似的。hadoop是乙個分布式儲存 hdfs 和分布式計算框架 mapreduce 但是hadoop也有乙個很重要的特性 hadoop會將mapreduce計算移動到儲存有部分資料的各台機器上。術語 mapred...

大資料初探 Hadoop歷史

hadoop是乙個開源的分布式框架,是apache下的乙個開源專案。hadoop執行可以在成千上萬個普通機器節點組成的集群上,通過分布式的計算模型和儲存模型來處理大資料集。hadoop具有高容錯性 工作在普通的機器節點上擴充套件性強等眾多的優點,是企業選擇處理大資料集工具的不二 人 選。這個框架是另...