離線大資料排程框架 1 需求分析

2021-09-11 07:34:21 字數 405 閱讀 3959

1、啟動flume將指定檔案【檔案內容每一分鐘增加若干行,模擬nginx日誌】自動同步到hdfs。

要求:2、配置mr任務並依賴flume任務

要求:3、通過sqoop命令列顯示mysql裡面有多少資料表;通過azkaban配置sqoop任務,將product、member、order三表同步到hive表

要求:4、hive相關排程

5、配置sqoop任務將hive任務結果匯入mysql資料庫

6、基於你現有知識,設計自己的框架

框架適用方需求如下:【前2個需求通過寫shell指令碼暴露通用引數】

大資料分析框架

spark 是在 hadoop 的基礎上進行了一些架構上的改良。spark 與hadoop 最大的不同點在於,hadoop 使用硬碟來儲存資料,而spark 使用記憶體來儲存資料,因此 spark 可以提供超過 ha?doop 100 倍的運算速度。由於記憶體斷電後會丟失資料,spark不能用於處理...

大資料學習 資源排程框架 YARN

伺服器集群資源排程管理和mapreduce執行過程耦合在一起帶來的問題 不同計算框架可以共享同乙個hdfs集群上的資料,享受整體的資源排程 1,client提交作業請求 6,container啟動後,執行對應的任務 1 mapred site.xml mapreduce.framework.name...

什麼是Oozie 大資料任務排程框架

oozie的工作流必須是乙個有向無環圖,實際上oozie就相當於hadoop的乙個客戶端,當使用者需要執行多個關聯的mr任務時,只需要將mr執行順序寫入workflow.xml,然後使用oozie提交本次任務,oozie會託管此任務流。注意 使用oozie之前必須先啟動hdfs,yarn和jobhi...