大資料 三 YARN

2021-09-29 19:05:35 字數 606 閱讀 4356

流式計算框架:storm

記憶體計算框架:spark

離線計算框架:mapreduce 

僅適合離線批處理

具有很好的容錯性和擴充套件性

適合簡單的批處理任務

缺點明顯

啟動開銷大、過多使用磁碟導致效率低下等

dag計算框架:apache tez 

dag計算:多個作業之間存在資料依賴關係,並形成乙個依賴關係有向圖( directed acyclic graph ),該圖的計算稱為「dag計算」

和mapreduce相比

tez應用場景

直接編寫應用程式

tez提供了一套通用程式設計介面

適合編寫有依賴關係的作業

優化pig、hive等引擎

下一代hive:stinger

好處1:避免查詢語句轉換成過多的mapreduce作業後產生大量不必要的網路和磁碟io

好處2:更加智慧型的任務處理引擎

流式計算框架:storm

storm on yarn(和其他如mapreduce、tez、spartk等都不同,其他計算框架的client)

記憶體計算框架:spark

已經形成了自己的生態系統

大資料學習 Hadoop初識三Yarn模式

閱讀原文 摘要 我們都知道在如今的hadoop中主要有三個重要的執行管理器。乙個hdfs,乙個mapreduce,還有就是我們今天要看的 yarn。2.0以前的hadoop 在2.0以前的hadoop中是沒有yarn這個模式管理的。2.0以前的hadoop 在2.0以前的hadoop中是沒有yarn...

大資料hadoop之yarn

yarn是乙個資源排程平台負責為運算程式提供伺服器運算資源,相當於乙個分布式作業系統平台,mr等程式在上面執行。mr程式把任務提交到客戶端所在節點 rm將使用者請求初始化乙個task進入自己的任務排程佇列,傳送task任務到nm am向rm申請執行maptask容器 rm向nm分配maptask,n...

大資料之yarn體系結構

繼續寫筆記,清清腦子 hadoop1.0的執行流程 我是搬運工。這段等我弄懂了再修改 首先使用者程式 jobclinet 提交乙個job,job的資訊會傳送到jobtracker中,jobtracker是map reduce框架的中心,他需要與集群中的機器定時通訊 hearbeat 需要管理那些程式...