HDFS Yarn簡介和執行流程

2022-08-21 22:36:14 字數 1134 閱讀 2981

yarn:不同的計算框架可以共享同一hdfs集群上的資料,享受整體的資源排程(可以使mr,hdfs,spark,storm等共用同一集群的框架,yarn可以按框架的資源需求量做出合適的分配)

yarn架構:

1、resourcemanager:rm  

整個集群同一時間提供服務的rm只有乙個,負責集群資源的同一管理和排程(一般會有乙個代替者,主rm掛掉後,副rm開始啟用,保證服務不會斷掉)

處理客戶端的請求:提交/殺死乙個作業

監控nm,一旦乙個nm掛了,那麼nm上執行的任務需要告訴am來如何處理(重啟還是。。。)

2、nodemanager:nm

整個集群中有多個,負責自己本身節點資源管理和使用

定時向rm匯報界定啊的資源使用情況(心跳的形式)

接收並處理來自rm的各種命令:啟動container

處理來自am的命令

單個節點的資源管理

每乙個應用程式對應乙個:mr、spark,負責應用程式的管理

為應用程式向rm申請資源(core、memory),分配給內部task

需要與nm通訊:啟動/停止task,task是執行在container裡面,am也是執行在container

4、container

封裝了cpu、memory等資源的容器

是乙個任務執行環境的抽象

5、client

提交/殺死作業

查詢作業的執行進度

yarn的執行流程:

1、客戶端先訪問rm,要啟動乙個任務

2、rm收到後會分配乙個container,並與對應的nm通訊,要求在container中啟動am

3、am會向rm註冊(這樣使用者就可以通過rm得知任務的整個進度),並申請所需資源(cpu、memory等)(通過rpc協議輪訓的方式申請)

4、am拿到資源後,告知nm,要求啟動任務

5、nm會為任務設定好環境(環境變數、jar包等),然後將啟動命令寫成指令碼並啟動

6、各個任務會通過rpc協議向am匯報任務的狀態及進度,若是task(任務失敗),由am決定是重啟還是。。。

7、應用程式完成後,am向rm登出並關閉自己

HDFS Yarn簡介和執行流程

yarn 不同的計算框架可以共享同一hdfs集群上的資料,享受整體的資源排程 可以使mr,hdfs,spark,storm等共用同一集群的框架,yarn可以按框架的資源需求量做出合適的分配 yarn架構 1 resourcemanager rm 整個集群同一時間提供服務的rm只有乙個,負責集群資源的...

nutch 執行流程以及簡介

nutch體系流程圖 第一步 generator差生抓取列表,在generator產生抓取列表的過程中,會生成crawl generator資料夾。第二步 fetcher 從網上抓取網頁,生成crawl fetch以及content,content抓取下來的網頁的源 二進位制的內容,crawl fe...

mysql結構和執行流程

mysql整體結構大致分三層 mysql客戶端 用來處理 連線處理,授權認證,安全等功能 核心服務層 用來查詢解析,分析,優化,快取,內建函式 如時間 數學 加密等函式 所有的跨儲存引擎的功能也在這一層實現 儲存過程 觸發器 檢視。儲存引擎 負責mysql中的資料儲存和提取,每種儲存引擎都有其優勢和...