Hadoop的優化與發展

2021-08-20 03:28:16 字數 1164 閱讀 9412

hadoop1.0的核心元件(僅指mapreduce和hdfs,不包括hadoop生態系統內的pig、hive、hbase等其他元件),主要存在以下不足:

hadoop的優化與發展主要體現在兩個方面:

hadoop框架自身的改進:從1.0到2.0:

不斷完善的hadoop生態系統:

hdfs1.0中存在的問題:

hdfs federation的設計:

hdfs federation的訪問方式:

hdfs federation相對hdfs1.0的優勢:

hdfs federation設計可解決單名稱節點存在的以下幾個問題:

hdfs集群擴充套件性。多個名稱節點各自分管一部分目錄,使得乙個集群可以擴充套件到更多節點,不再像hdfs1.0中那樣由於記憶體的限制制約檔案儲存數目 。

效能更高效。多個名稱節點管理不同的資料,且同時對外提供服務,將為使用者提供更高的讀寫吞吐率 。

良好的隔離性。使用者可根據需要將不同業務資料交由不同名稱節點管理,這樣不同業務之間影響很小。

需要注意的,hdfs federation並不能解決單點故障問題,也就是說,每個名稱節點都存在在單點故障問題,需要為每個名稱節點部署乙個後備名稱節點,以應對名稱節點掛掉對業務產生的影響。

存在單點故障。

jobtracker「大包大攬」導致任務過重(任務多時記憶體開銷大,上限4000節點)。

容易出現記憶體溢位(分配資源只考慮mapreduce任務數,不考慮cpu、記憶體)。

資源劃分不合理(強制劃分為slot ,包括map slot和reduce slot)。

yarn架構思路:將原jobtacker三大功能拆分

以上內容為聽華為大資料培訓課程和大學mooc上廈門大學 林子雨的《大資料技術原理與應用》課程而整理的筆記。

大資料技術原理與應用

十八 Hadoop的優化

終於看到這麼親民的標題了,一般到了優化的部分,基本上就接近尾聲了。沒錯,hadoop部分即將結束了,hadoop ha部分的講解就放到zookeeper之後吧,畢竟ha要用到zookeeper。關注專欄 破繭成蝶 大資料篇 檢視相關系列的文章 目錄 一 mapreduce執行慢的原因 二 mapre...

hadoop的企業優化

前言 mapreduce程式的效率的瓶頸在於兩點 計算機效能 cpu 記憶體 磁碟健康 網路 i o操作 資料傾斜 map和reduce數量設定不合理 map的執行時間太長,導致reduc的等待過久 小檔案過多 大量的補課分塊的超大檔案 spill 溢寫 次數過多 merge 合併 次數過多 map...

Hadoop 六 Hadoop企業優化

mapreduce 程式效率的瓶頸在於兩點 cpu 記憶體 磁碟健康 網路 1 資料傾斜 2 map和reduce數設定不合理 3 map執行時間太長,導致reduce等待過久 4 小檔案過多 5 大量的不可分塊的超大檔案 6 spill次數過多 7 merge次數過多等。mapreduce優化方法...