hadoop基礎框架介紹

2021-07-28 09:01:57 字數 1267 閱讀 4166

以下是官方對hadoop的解釋:

the apache™ hadoop® project develops open-source software for reliable, scalable, distributed computing。

hadoop核心模組:

hadoop common: the common utilities that support the other hadoop modules.

hadoop yarn: a framework for job scheduling and cluster resource management.

hadoop mapreduce: a yarn-based system for parallel processing of large data sets.

hadoop主要模組(單一職責,職責明確劃分):

yarn:

分配資源

監控管理任務

計算任務:

mapreduce

資料儲存:

hdfs

hdfs架構:

二叉樹(資料結構)

namenode:管理者 管理元資料的命名空間,維護者整個檔案系統的目錄樹

元資料資訊

舉個荔枝,檔案:檔案本身內容是一部分

檔案本身攜帶的一部分資訊 又是一部分(元資料)

datanode:

儲存檔案資料本身內容的,檔案是以塊的形式儲存的

hdfs讀取資料的流程:(檔案)

client 端--->傳送讀取資料 的請求--->namenode 進行通訊--->

返回你要讀取資料的最佳位置(本地計算的概念)--->和datanode進行通訊讀取對應的資訊

yarn核心元件:

resourcemanager(管理員 平台資源):

對資源進行分配管理和任務排程

1、接收客戶端請求

3、向 resourcemanager 進行反向註冊的(客戶端可以直接檢視任務具體的執行狀態)

5、resourmanager 返回乙個 nodemanager 列表資訊

6、clinet 與具體的 nodemanger 進行通訊執行任務

mapreduce:

map 端

任務分解

shuffle連線(橋)

reduce 端

將前面任務分解執行完的結果進行彙總

分而治之 歸約處理

應用場景:離線批處理資料(海量的)

缺點:啟動開銷大、高延遲 所以小資料不建議應用

Hadoop框架介紹

hadoop三大發行版本 apache cloudera hortonworks。apache版本最原始 最基礎 的版本,對於入門學習最好。cloudera內部整合了很多大資料框架。對應產品cdh。hortonworks文件較好。對應產品hdp。在hadoop1.x時代,hadoop 的mapred...

Hadoop框架基礎

hadoop 是乙個適合大資料的分布式儲存和計算平台。指的是乙個框架,hadoop是由三部分組成 hdfs 分布式檔案系統 儲存 mapreduce 分布式離線計算框架 計算 yarn 資源排程框架 廣義的hadoop不僅僅包含hadoop框架,除了hadoop框架之外的一些輔助框架。flume 日...

hadoop之hadoop基礎介紹

hadoop是什麼?是乙個分布式基礎架構,主要解決海量資料儲存以及資料分析計算問題。hadoop三大發行版本?apache clourdera hortonworks hadoop優勢?高可靠 高擴充套件 高效 高容錯 hadoop1.x和2.x的區別?hdfs hadoop distributed...