Hadoop系列之八 Hadoop集群

2021-09-04 16:00:14 字數 1787 閱讀 3252

1、合併mapreduce集群與hdfs集群

在排程執行乙個作業時,將map任務等直接執行於要處理的資料所儲存的hdfs的資料節點上,可避免大量的資料傳輸,實現資料處理的本地性,進而大大提高整個過程的完成效率,這也正是hadoop集群的部署方式。如下圖所示。

在乙個小於50個節點的小規模集群中,可以將namenode與jobtracker合併於同乙個節點上執行。而整個集群共有5類執行的核心程序,它們是mapreduce集群的jobtrackertasktracker,以及hdfs集群的namenodedatanodesecondarynamenode

2、hadoop專案

hadoop提供的強大的大資料儲存及分析能力受到了很多著名公司的青睞,如yahoo!、facebook、linkedin、twitter、rackspace、baidu、ebay、taobao等,它們根據需要分別部署了規模不同的hadoop集群來實現諸如推薦系統金融分析自然語言處理資料探勘影像處理市場**日誌分析等功能。

3、hadoop的版本

hadoop各版本對比說明:

4、hadoop商業發行版

hadoop的發行版除了asf的hadoop外,還有cloudera、hortonworks、mapr、intel、emc等提供的商業支援版本,分別以自己的附加產品及應用經驗為hadoop應用提供專業的技術支援。

2023年成立的cloudera是最早將hadoop商用的公司,為合作夥伴提供hadoop的商用解決方案,主要是包括技術支援、諮詢服務和培訓等。2023年hadoop的創始人doug cutting也任職於cloudera公司。cloudera產品主要為cdh,cloudera manager,cloudera support。cdh是cloudera的hadoop發行版,完全開源,比apache hadoop在相容性,安全性,穩定性上有增強。cloudera manager是集群的軟體分發及管理監控平台,可以在幾個小時內部署好乙個hadoop集群,並對集群的節點及服務進行實時監控。cloudera support即是對hadoop的技術支援。

2023年成立的hortonworks是雅虎與矽谷風投公司benchmark capital合資組建的公司。公司成立之初吸納了大約25名至30名專門研究hadoop的雅虎工程師,上述工程師均在2023年開始協助雅虎開發hadoop,這些工程師貢獻了hadoop 80%的**。雅虎工程副總裁、雅虎hadoop開發團隊負責人eric baldeschwieler出任hortonworks的首席執行官。hortonworks 的主打產品是hortonworks data platform (hdp),也同樣是100%開源的產品,hdp還包含了一款開源的安裝和管理系統ambari以及乙個元資料管理系統hcatalog。

cloudera和hortonworks都在通過自己的努力不斷地提交**修復及完善著apache hadoop。如果對其它商業版本有興趣,請分別參照其官方的說明。本書後面選用的hadoop會以cdh或hdp為主。

5、hadoop生態圈

hadoop operations

Hadoop系列之八 Hadoop集群

1 合併mapreduce集群與hdfs集群 在排程執行乙個作業時,將map任務等直接執行於要處理的資料所儲存的hdfs的資料節點上,可避免大量的資料傳輸,實現資料處理的本地性,進而大大提高整個過程的完成效率,這也正是hadoop集群的部署方式。如下圖所示。在乙個小於50個節點的小規模集群中,可以將...

Hadoop系列之八 Hadoop集群

1 合併mapreduce集群與hdfs集群 在排程執行乙個作業時,將map任務等直接執行於要處理的資料所儲存的hdfs的資料節點上,可避免大量的資料傳輸,實現資料處理的本地性,進而大大提高整個過程的完成效率,這也正是hadoop集群的部署方式。如下圖所示。在乙個小於50個節點的小規模集群中,可以將...

Hadoop到底能做什麼?怎麼用hadoop?

調研hadoop頗久,就是想知道hadoop是什麼?hadoop能做什麼?怎麼用hadoop?最主要是這三塊,至於投入和風險也會隨之出來 濃縮了我幾十頁的調研方案啊!hadoop是什麼?hadoop是乙個開源的框架,可編寫和執行分布式應用,處理大規模資料,是專為離線和大規模資料分析而設計的,並不適合...