spark 歷史和實時任務日誌監控

一.spark on yarn historyserver（執行完畢日誌）

1.配置yarn日誌引數:yarn-site.xml

yarn.log-aggregation-enable

true

yarn.log.server.url

修改spark的spark-defaults.conf

spark.yarn.historyserver.address

2. 啟動 yarn &mrhistory server

sbin/start-yarn.sh

sbin/mr-jobhistory-daemon.sh start historyserver

3. 啟動 spark 的historyserver

cd/opt/modules/spark

sbin/start-history-server.sh

二.spark on yarn 日誌聚合（執行時日誌）

方式一：預設埠，修改相應配置檔案

1. 配置spark-env.sh

spark_history_opts="-dspark.history.fs.logdirectory=hdfs:"

（有引號）

2. 建立hdfs對應的路徑

hdfsdfs -mkdir -p /user/spark/eventlogs

3.修改spark-defaults.conf

spark.eventlog.enabled true

spark.eventlog.dir hdfs:

方式二：如果很多配置不是預設埠，可以開啟**服務（**不僅可以開啟實時監控，也同時開啟了 historyserver）

1.配置：yarn-site.xml

yarn.web-proxy.address

master-yyft:18888

2.啟動** yarn-daemon.sh start proxyserver

三.補充 hadoop 的historyserver

1.修改mapred-site.xml

mapreduce.jobhistory.address

hadoop-senior01.ibeifeng.com:10020

hadoop-senior01.ibeifeng.com:19888

2.啟動mr-jobhistory-daemon.shstart historyserver

實時任務頻寬控制

proc sys kernel sched rt runtimes us，預設 950000 proc sys kernel sched rt period us，預設 1000000 在使用該功能時，當實時任務的頻寬用盡時 sched rt runtime us 核心會將對應的實時執行佇列rt r...

實時任務 offset管理

背景目前我們執行的實時任務基本上都是使用sparkstreaming,當然後面考慮使用最近比較火的flink，看了部分資料介紹後，我感覺sparkstreaming相對於flink，唯一的不足是，sparkstreaming在task排程上損耗了不少效能。flink還沒有深入研究內部實現，flin...

實時任務資料丟失

flink實時任務從kafka集群讀取源資料從redis定期全量拉取使用者白名單，然後進行廣播源資料connect白名單資料，源資料根據白名單資料進行過濾處理過濾處理完後的資料，http推送寫redis 寫log等上線驗證的時候，有些資料丟失，而且比較頻繁，分析可能原因 kafka源資料...

spark 歷史和實時任務日誌監控

實時任務頻寬控制

實時任務 offset管理

實時任務資料丟失

相關推薦