Flink on yarn,任务代码里想通过jobListener监听任务状态,onJobSubmitted 和onJobExecuted同时触发,回调没生效,Flink这个问题有人遇到过吗?
Flink这个问题有人遇到过吗?[阿里云实时计算 Flink版]
「点点赞赏,手留余香」
还没有人赞赏,快来当第一个赞赏的人吧!
Flink on yarn,任务代码里想通过jobListener监听任务状态,onJobSubmitted 和onJobExecuted同时触发,回调没生效,Flink这个问题有人遇到过吗?
看起来你可能遇到了一个Flink的bug或者某些实现上的问题。在Flink中,通常来说,onJobSubmitted 和onJobExecuted应该只会被调用一次,分别在任务提交到YARN后和任务执行完成后。如果你在onJobSubmitted 和onJobExecuted两个方法中都添加了日志打印或者其他操作,并且发现这两个方法在同一时间被触发,那么可能是Flink的实现存在问题。
你可以尝试以下几种方法来解决这个问题:
更新你的Flink版本到最新稳定版,看看问题是否得到解决。
在onJobSubmitted 和onJobExecuted方法的实现中添加一些条件判断,例如检查任务的运行状态,确保只在适当的时候触发这些方法。
“在Flink on yarn的模式下,taskManager的日志会存储到所在的 DataNode 上,当Flink 任务发生异常,产生异常日志时,需要第一时间感知任务已经出现异常,避免影响业务。因此需要将Flink任务的状态监控纳入公司的统一监控体系,以及时发现并处理 Flink 的运行异常情况。
flink on yarn的任务监控一般包括以下几个方面:
在实际生产环境中,我们往往会结合公司现有的监控系统进行整合,以达到统一监控的目的。
目前比较成熟的开源监控系统有Grafana+Prometheus+Alertmanager等组合,可以实现告警、报警、指标展示等功能,对于Flink的任务监控来说,只需要将Flink暴露的相关指标接入Prometheus即可实现。
常见的方式有如下几种:
另外,在Flink官网也提供了针对YARN模式下的作业监控解决方案,具体可参考官方文档:
https://ci.apache.org/projects/flink/flink-docs-release-1.13/monitoring/metrics.html#yarn-cluster-metrics”
这个东西的客户端不会退出,会占用客户端的内存。此回答整理自钉群“【①群】Apache Flink China社区”