Hadoop入門掃盲 hadoop發行版介紹與選擇

2021-09-22 05:23:33 字數 1778 閱讀 2027

一、hadoop發行版介紹

目前hadoop發行版非常多,有intel發行版,華為發行版、cloudera發行版(cdh)、hortonworks版本等,所有這些發行版均是基於apache hadoop衍生出來的,之所以有這麼多的版本,是由於apache hadoop的開源協議決定的:任何人可以對其進行修改,並作為開源或商業產品發布/銷售。

目前而言,不收費的hadoop版本主要有三個,都是國外廠商,分別是:

apache(最原始的版本,所有發行版均基於這個版本進行改進)

cloudera版本(cloudera』s distribution including apache hadoop,簡稱cdh)

hortonworks版本(hortonworks data platform,簡稱「hdp」)

對於國內使用者而言,絕大多數選擇cdh版本,cloudera的cdh和apache的hadoop的區別如下:

(1) cdh對hadoop版本的劃分非常清晰,截止目前為止,cdh共有5個版本,其中,前三個已經不再更新,最近的兩個,分別是cdh4和cdh5,cdh4基於hadoop2.0,cdh5基於hadoop2.2/2.3/2.5/2.6.相比而言,apache版本則混亂得多;同時,cdh發行版比apache hadoop在相容性,安全性,穩定性上有很大增強。  

(2)cdh3是cdh第三個版本,基於apache hadoop0.20.2改進而來,並融入了最新的patch,cdh4版本是基於apache hadoop2.0.0改進的,cdh總是並應用了最新bug修復或者feature的patch,並比apache hadoop同功能版本提早發布,更新速度比apache官方快。

(3)cdh支援kerberos安全認證,apache hadoop則使用簡陋的使用者名稱匹配認證.

(4)cd**檔完善清晰,很多採用apache版本的使用者都會閱讀cdh提供的文件,包括安裝文件、公升級文件等。 

(5)cdh支援yum/apt包,rpm包,tar包,cloudera manager三種方式安裝,apache hadoop只支援tar包安裝。

二、cdh發行版本介紹

cdh首先是100%開源,基於apache協議。基於apache hadoop和相關projiect開發。可以做批量處理,互動式sql查詢和及時查詢,基於角色的許可權控制。在企業中使用最廣的hadoop分發版本。

cloudera完善了cdh的版本,並提供了對hadoop的發布、配置和管理,監控,診斷工具,在官網提供了多種整合發行版。如下圖所示:

3、cloudera enterprise是官方的收費產品,可免費試用60天全功能版本,過期後需要註冊碼才能繼續使用,否則將變為cloudera express版本,包含cdh,以及cloudera manager。cloudera enterprise在發布、配置和管理,監控,診斷,整合四個部分的功能是相同的。只有在高階管理功能中有區別,cloudera enterprise擁有這些功能,而cloudera express則沒有。

四、cdh與作業系統的依賴

cdh發行版本與作業系統的關係如下:

經驗推薦:

hadoop-2.3.0-cdh5.1.5以及之前的版本,推薦linux作業系統版本為centos6.x以上

hadoop-2.5.0-cdh5.2.0以及之後的版本,推薦linux作業系統版本為centos7.x(centos7.1/7.2,7.0不支援)以上。

Hadoop到底能做什麼?怎麼用hadoop?

調研hadoop頗久,就是想知道hadoop是什麼?hadoop能做什麼?怎麼用hadoop?最主要是這三塊,至於投入和風險也會隨之出來 濃縮了我幾十頁的調研方案啊!hadoop是什麼?hadoop是乙個開源的框架,可編寫和執行分布式應用,處理大規模資料,是專為離線和大規模資料分析而設計的,並不適合...

《Hadoop權威指南》第一章初始Hadoop

我們已經進入了乙個資料大 的時代!有大量資料需要儲存和處理 硬碟儲存容量多年來不斷提公升的同時,訪問速度卻沒有與時俱進。可採用分布式儲存。但是存在兩個問題,1.硬體故障問題。解決辦法 a.冗餘硬碟陣列 raid b.hadoop的檔案系統hdfs。2.多數任務需要某種方式結合大部分資料來共同分析。關...

Hadoop快速入門( Hadoop簡介)

hadoop 核心元件 hadoop 包含以下模組 hadoop common 常見實用工具,用來支援其他 hadoop 模組。hadoop distributed file system hdfs 分布式檔案系統,它提供對應用程式資料的高吞吐量訪問。hadoop yarn 乙個作業排程和集群資源管...