Hadoop版本變遷

2022-04-03 06:07:49 字數 2318 閱讀 8124

hadoop版本變遷

到2023年5月為止,apache hadoop已經出現四個大的分支,如圖2-1所示。

apache hadoop的四大分支構成了四個系列的hadoop版本。

1. 0.20.x系列

2. 0.21.0/0.22.x系列

這一系列版本將整個hadoop專案分割成三個獨立的模組,分別是 common、hdfs和mapreduce。hdfs和mapreduce都對common模組有依賴性,但是mapreduce對hdfs並沒有依賴性。這樣,mapreduce可以更容易地執行其他分布式檔案系統,同時,模組間可以獨立開發。具體各個模組的改進如下。

common模組:最大的新特性是在測試方面新增了large-scale automated test framework和fault injection framework。

hdfs模組:主要增加的新特性包括支援追加操作與建立符號連線、secondary namenode改進(secondary namenode被剔除,取而代之的是checkpoint node,同時新增乙個backup node的角色,作為namenode的冷備)、允許使用者自定義block放置演算法等。

mapreduce模組:在作業api方面,開始啟動新mapreduce api,但老的api仍然相容。

0.22.0在0.21.0的基礎上修復了一些bug並進行了部分優化。

3. 0.23.x系列

0.23.x是為了克服hadoop在擴充套件性和框架通用性方面的不足而提出來的。它實際上是乙個全新的平台,包括分布式檔案系統hdfs federation和資源管理框架yarn兩部分,可對接入的各種計算框架(如mapreduce、spark等)進行統一管理。它的發行版自帶mapreduce庫,而該庫整合了迄今為止所有的mapreduce新特性。

4. 2.x系列

同0.23.x系列一樣,2.x系列也屬於下一代hadoop。與0.23.x系列相比,2.x系列增加了namenode ha和wire-compatibility等新特性。

表2-1總結了hadoop各個發布版的特性以及穩定性。

表2-1 hadoop各個發布版的特性以及穩定性

本書之所以以分析apache hadoop 1.0.0為主,主要是因為這是乙個穩定的版本,再有其為1.0.0,具有里程碑意義。apache發布這個版本,也是希望該版本成為業界的規範。需要注意的是,儘管本書以分析apache hadoop 1.0.0版本為主,但本書內容適用於所有apache hadoop 1.x版本。

0.20.x版本最後演化成了現在的1.0.x版本

0.23.x版本最後演化成了現在的2.x版本

hadoop 1.0 指的是1.x(0.20.x),0.21,0.22

hadoop 2.0 指的是2.x,0.23.x

cdh3,cdh4分別對應了hadoop1.0 hadoop2.0

如何選擇hadoop版本

當前hadoop版本比較混亂,讓很多使用者不知所措。實際上,當前hadoop只有兩個版本:hadoop 1.0和hadoop 2.0,其中,hadoop 1.0由乙個分布式檔案系統hdfs和乙個離線計算框架mapreduce組成,而hadoop 2.0則包含乙個支援namenode橫向擴充套件的hdfs,乙個資源管理系統yarn和乙個執行在yarn上的離線計算框架mapreduce。相比於hadoop 1.0,hadoop 2.0功能更加強大,且具有更好的擴充套件性、效能,並支援多種計算框架。

當我們決定是否採用某個軟體用於開源環境時,通常需要考慮以下幾個因素:

(1)是否為開源軟體,即是否免費。

(2) 是否有穩定版,這個一般軟體官方**會給出說明。

(3) 是否經實踐驗證,這個可通過檢查是否有一些大點的公司已經在生產環境中使用知道。

(4) 是否有強大的社群支援,當出現乙個問題時,能夠通過社群、論壇等網路資源快速獲取解決方法。

如今hadoop 2.0已經發布了最新的穩定版2.4.0。

releases may be downloaded from apache mirrors.

download a release now!

hadoop版本號變遷

近期在研究hadoop時,發現hadoop的版本號非常混亂。原來的版本號都說0.x.x開始,後來發現有1.x.x和2.x.x 這樣就不太清楚了。0.20.2版本號曾經 不含該版本號 的配置檔案都在default.xml中。0.20.x以後的版本號不含有eclipse外掛程式的jar包,因為eclip...

Hadoop學習一 Hadoop版本

一.hadoop社群版和發行版 社群版 我們把apache社群一直開發的hadoop稱為社群版。簡單的說就是apache hadoop 發行版 基於apache hadoop的基礎上進行商業改造的解決方案,包含一系列定製的管理工具和軟體。二.hadoop社群版版本號 一直以來,hadoop的版本號一...

Hadoop版本變化

hadoop有兩個分支 0.20.x 和0.23.x。其中0.20.x是比較穩定的版本,0.23.x中新特性更多,但相對不穩定。其中從0.20.x 分支發展出來的是 hadoop1.0,cdh3 從0.23.x 分支發展出來的是 hadoop alpha,cdh4 下面具體說hadoop1.0 2....