spark 歷史和實時任務日誌監控

2021-08-15 07:03:53 字數 1238 閱讀 7689

一.spark on yarn historyserver(執行完畢日誌)

1.配置yarn日誌引數:yarn-site.xml

yarn.log-aggregation-enable

true

yarn.log.server.url

修改spark的spark-defaults.conf

spark.yarn.historyserver.address      

2. 啟動 yarn &mrhistory server

sbin/start-yarn.sh

sbin/mr-jobhistory-daemon.sh start historyserver

3. 啟動 spark 的historyserver

cd/opt/modules/spark

sbin/start-history-server.sh

二.spark on yarn 日誌聚合 (執行時日誌)

方式一:預設埠,修改相應配置檔案

1. 配置spark-env.sh

spark_history_opts="-dspark.history.fs.logdirectory=hdfs:"

(有引號)

2. 建立hdfs對應的路徑

hdfsdfs -mkdir -p /user/spark/eventlogs

3.修改spark-defaults.conf

spark.eventlog.enabled         true

spark.eventlog.dir        hdfs:

方式二:如果很多配置不是預設埠,可以開啟**服務(**不僅可以開啟實時監控,也同時開啟了 historyserver)

1.配置:yarn-site.xml

yarn.web-proxy.address

master-yyft:18888

2.啟動** yarn-daemon.sh start proxyserver

三.補充 hadoop 的historyserver

1.修改mapred-site.xml

mapreduce.jobhistory.address

hadoop-senior01.ibeifeng.com:10020

hadoop-senior01.ibeifeng.com:19888

2.啟動mr-jobhistory-daemon.shstart historyserver

實時任務頻寬控制

proc sys kernel sched rt runtimes us,預設 950000 proc sys kernel sched rt period us,預設 1000000 在使用該功能時,當實時任務的頻寬用盡時 sched rt runtime us 核心會將對應的實時執行佇列rt r...

實時任務 offset管理

背景 目前我們執行的實時任務基本上都是使用sparkstreaming,當然後面考慮使用最近比較火的flink,看了部分資料介紹後,我感覺sparkstreaming相對於flink,唯一的不足是,sparkstreaming在task排程上損耗了不少效能。flink還沒有深入研究內部實現,flin...

實時任務資料丟失

flink實時任務 從kafka集群讀取源資料 從redis定期全量拉取使用者白名單,然後進行廣播 源資料connect白名單資料,源資料根據白名單資料進行過濾處理 過濾處理完後的資料,http推送 寫redis 寫log等 上線驗證的時候,有些資料丟失,而且比較頻繁,分析可能原因 kafka源資料...