大資料三 YARN

流式計算框架：storm

記憶體計算框架：spark

離線計算框架：mapreduce

僅適合離線批處理

具有很好的容錯性和擴充套件性

適合簡單的批處理任務

缺點明顯

啟動開銷大、過多使用磁碟導致效率低下等

dag計算框架：apache tez

dag計算：多個作業之間存在資料依賴關係，並形成乙個依賴關係有向圖（ directed acyclic graph ），該圖的計算稱為「dag計算」

和mapreduce相比

tez應用場景

直接編寫應用程式

tez提供了一套通用程式設計介面

適合編寫有依賴關係的作業

優化pig、hive等引擎

下一代hive：stinger

好處1：避免查詢語句轉換成過多的mapreduce作業後產生大量不必要的網路和磁碟io

好處2：更加智慧型的任務處理引擎

流式計算框架：storm

storm on yarn（和其他如mapreduce、tez、spartk等都不同，其他計算框架的client）

記憶體計算框架：spark

已經形成了自己的生態系統

大資料學習 Hadoop初識三Yarn模式

閱讀原文摘要我們都知道在如今的hadoop中主要有三個重要的執行管理器。乙個hdfs,乙個mapreduce,還有就是我們今天要看的 yarn。2.0以前的hadoop 在2.0以前的hadoop中是沒有yarn這個模式管理的。2.0以前的hadoop 在2.0以前的hadoop中是沒有yarn...

大資料hadoop之yarn

yarn是乙個資源排程平台負責為運算程式提供伺服器運算資源，相當於乙個分布式作業系統平台，mr等程式在上面執行。mr程式把任務提交到客戶端所在節點 rm將使用者請求初始化乙個task進入自己的任務排程佇列，傳送task任務到nm am向rm申請執行maptask容器 rm向nm分配maptask，n...

大資料之yarn體系結構

繼續寫筆記，清清腦子 hadoop1.0的執行流程我是搬運工。這段等我弄懂了再修改首先使用者程式 jobclinet 提交乙個job，job的資訊會傳送到jobtracker中，jobtracker是map reduce框架的中心，他需要與集群中的機器定時通訊 hearbeat 需要管理那些程式...

大資料 三 YARN

大資料學習 Hadoop初識三Yarn模式

大資料hadoop之yarn

大資料之yarn體系結構

相關推薦

大資料三 YARN