Flink这个问题有人遇到过吗?[阿里云实时计算 Flink版]

Flink on yarn,任务代码里想通过jobListener监听任务状态,onJobSubmitted 和onJobExecuted同时触发,回调没生效,Flink这个问题有人遇到过吗?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
2 条回复 A 作者 M 管理员
  1. 看起来你可能遇到了一个Flink的bug或者某些实现上的问题。在Flink中,通常来说,onJobSubmitted 和onJobExecuted应该只会被调用一次,分别在任务提交到YARN后和任务执行完成后。如果你在onJobSubmitted 和onJobExecuted两个方法中都添加了日志打印或者其他操作,并且发现这两个方法在同一时间被触发,那么可能是Flink的实现存在问题。

    你可以尝试以下几种方法来解决这个问题:

    1. 更新你的Flink版本到最新稳定版,看看问题是否得到解决。

    2. 在onJobSubmitted 和onJobExecuted方法的实现中添加一些条件判断,例如检查任务的运行状态,确保只在适当的时候触发这些方法。

  2. “在Flink on yarn的模式下,taskManager的日志会存储到所在的 DataNode 上,当Flink 任务发生异常,产生异常日志时,需要第一时间感知任务已经出现异常,避免影响业务。因此需要将Flink任务的状态监控纳入公司的统一监控体系,以及时发现并处理 Flink 的运行异常情况。
    flink on yarn的任务监控一般包括以下几个方面:

    1. 作业提交成功与否,是否被正确调度;
    2. 作业运行过程中,各阶段的状态,如 source、map、reduce等算子的状态;
    3. TaskManager的状态,如是否存活、slot使用情况等;
    4. jobManager的状态,如内存使用情况、CPU使用情况等;
    5. taskManager和jobManager的日志情况,可以通过收集器收集并上传到log server。
      在实际生产环境中,我们往往会结合公司现有的监控系统进行整合,以达到统一监控的目的。
      目前比较成熟的开源监控系统有Grafana+Prometheus+Alertmanager等组合,可以实现告警、报警、指标展示等功能,对于Flink的任务监控来说,只需要将Flink暴露的相关指标接入Prometheus即可实现。
      常见的方式有如下几种:
    6. 开启Flink的metricReporter插件,通过JMX或者HTTP方式对外暴露指标;
    7. 通过Flink metrics REST API获取指标数据,然后推送到Prometheus;
    8. 自定义MetricGroup,将需要监控的数据封装成自定义的Metric,然后注册到MetricGroup中,最后由Reporter采集并发送给Prometheus。
      另外,在Flink官网也提供了针对YARN模式下的作业监控解决方案,具体可参考官方文档:
      https://ci.apache.org/projects/flink/flink-docs-release-1.13/monitoring/metrics.html#yarn-cluster-metrics
  3. 这个东西的客户端不会退出,会占用客户端的内存。此回答整理自钉群“【①群】Apache Flink China社区”