YARN詳細排程流程

2021-10-24 16:25:59 字數 1076 閱讀 9479

總結yarn是乙個資源排程平台,負責為運算程式提供伺服器運算資源,相當於乙個分布式的作業系統平台,而mapreduce等運算程式則相當於執行於作業系統之上的應用程式。

yarn並不清楚使用者提交的程式的執行機制。

yarn只提供運算資源的排程(使用者程式向yarn申請資源,yarn就負責分配資源)。

yarn中的主管角色叫resourcemanager。

yarn中具體提供運算資源的角色叫nodemanager。

這樣一來,yarn其實就與執行的使用者程式完全解耦,就意味著yarn上可以執行各種型別的分布式運算程式(mapreduce只是其中的一種),比如mapreduce、storm程式,spark程式……。

所以,spark、storm等運算框架都可以整合在yarn上執行,只要他們各自的框架中有符合yarn規範的資源請求機制即可。

yarn就成為乙個通用的資源排程平台,從此,企業中以前存在的各種運算集群都可以整合在乙個物理集群上,提高資源利用率,方便資料共享。

mr 程式提交到客戶端所在的節點( mapreduce )。

rm 將該應用程式的資源路徑返回給 yarnrunner。

該程式將執行所需資源提交到 hdfs 上。(job.xml;job.split;mr.jar)。

rm 將使用者的請求初始化成乙個 task。

其中乙個 nodemanager 領取到 task 任務。

container 從 hdfs 上拷貝資源到本地。

rm 將執行 maptask 任務分配給另外兩個 nodemanager ,另兩個 nodemanager 分別領取任務並建立容器。

mr 向兩個接收到任務的 nodemanager 傳送程式啟動指令碼,這兩個 nodemanager 分別啟動 maptask , maptask 對資料分割槽排序。

reduce task 向 maptask 獲取相應分割槽的資料。

程式執行完畢後, mr 會向 rm 登出自己。

面試重點,面試的時候能把這15項有條不紊的講出來,yarn排程流程這一塊必過!。

yarn執行整體資源排程流程

並行度說明 maptask的並行度是指map階段有多少個並行的maptask共同處理任務 注意點 1.因為每個切片的大小預設情況下是128m,如果乙個檔案是260m,那麼切了128m後還剩132m,如果剩餘的長度 splitsize 1.1,就將我們剩餘的全部併入乙個切片中。2.小檔案情場 預設的切...

Yarn資源排程過程詳細 TEZ

在mapreduce1.0中,我們都知道也存在和hdfs一樣的單點故障問題,主要是jobtracker既負責資源管理,又負責任務分配。yarn中可以新增多種計算框架,hadoop,spark,mapreduce,不同的計算框架在處理不同的任務時,資源利用率可能處於互補階段,有利於提高整個集群的資源利...

Yarn資源排程

由於yarn良好的相容性和擴充套件性,目前可以支援大部分資料引擎,所以了解yarn的資源排程原理很有必要,yarn主要由四個重要角色組成 yarn排程主要分為8個步驟如上圖所示 1.有yarnclient提交program資訊打拼resourcemanager,包括 應用 和應用需要的一切引數和環境...