hadoop hadoop的各種版本

2021-10-08 12:47:41 字數 331 閱讀 6271

選型由於apache hadoop是開源的,任何人可以對其修改並作為開源或者商業的產品,所以出現很多發行版本,例如華為發行版、、cloudera發行版(cdh)等。

hadoop三大發行版本:apache、cloudera、hortonworks。

apache版本最原始(最基礎)的版本,對於入門學習最好。

cloudera在大型網際網路企業中用的較多。

hortonworks文件較好。

(1)apache:運維麻煩,元件相容性需要自己調研,適合於大公司

(2)cdh:國內使用最多的版本

(3)hdp:開源,可以二次開發,沒有cdh穩定,使用較少

Hadoop Hadoop 傳遞引數

寫mapreduce程式通常要傳遞各種各樣的引數,選擇合適的方式來傳遞引數既能提高工作效率,也可以避免bug的產生。根據引數的大小,可以粗略的分為以下幾種。最直接的方式就是使用configuration的各種set方法,對於基本資料型別都有很好的支援,比如傳遞kmeans聚類演算法的中心點個數。正確...

hadoop hadoop的一次讀取

一次hadoop的read getfilesystem public static filesystem getfilesystem throws exception configuration configuration基本就是乙個空物件。新增了2個配置檔案到資源列表。adddefaultreso...

Hadoop Hadoop的區域性效能改良

hadoop 是對hadoop map reduce的非入侵式優化,通過自定義hadoop框架中的split等函式來提公升,提公升查詢和聯接效能。專案由德國saarland大學jens dittrich教授主持。專案主頁是 hadoop 對hadoop的優化主要是trojan index troja...