黑猴子的家 如何選擇Hadoop版本?

2021-08-30 08:48:35 字數 451 閱讀 5705

當前hadoop版本比較混亂,讓很多使用者不知所措。實際上,當前hadoop只有兩個版本:hadoop 1.0和hadoop 2.0,其中,hadoop 1.0由乙個分布式檔案系統hdfs和乙個離線計算框架mapreduce組成,而hadoop 2.0則包含乙個支援namenode橫向擴充套件的hdfs,乙個資源管理系統yarn和乙個執行在yarn上的離線計算框架mapreduce。相比於hadoop 1.0,hadoop 2.0功能更加強大,且具有更好的擴充套件性、效能,並支援多種計算框架。

當我們決定是否採用某個軟體用於開源環境時,通常需要考慮以下幾個因素:

1、是否為開源軟體,即是否免費。

2、是否有穩定版,這個一般軟體官方**會給出說明。

3、是否經實踐驗證,這個可通過檢查是否有一些大點的公司已經在生產環境中使用知道。

4、是否有強大的社群支援,當出現乙個問題時,能夠通過社群、論壇等網路資源快速獲取解決方法。

黑猴子的家 Hive 之 Hadoop壓縮配置

1 mr支援的壓縮編碼 壓縮格式 工具演算法 副檔名 是否可切分 default 無default deflate 否gzip gzip default gz否 bzip2 bzip2 bzip2 bz2 是lzo lzop lzo.lzo 否lz4 無lz4 lz4否無 否2 編碼 解碼器 為了支...

黑猴子的家 Hadoop Checkpoint機制

fsimage和edit log合併的過程如下圖所示 其實這個合併過程是乙個很耗i o與cpu的操作,並且在進行合併的過程中肯定也會有其他應用繼續訪問和修改hdfs檔案。所以,這個過程一般不是在單一的namenode節點上進行從。如果hdfs沒有做ha的話,checkpoint由secondname...

黑猴子的家 FileInputFormat切片機制

1 job提交流程原始碼詳解 waitforcompletion submit 1 建立連線 connect 1 建立提交job的 new cluster getconfiguration 2 判斷是本地yarn還是遠端 initialize jobtrackaddr,conf 2 提交job su...