你好 我想问下, 实时任务读取datahub,如果任务重启是否会存在重复消费[阿里云DataWorks]

你好 我想问下, 实时任务读取datahub,如果任务重启是否会存在重复消费

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
2 条回复 A 作者 M 管理员
  1. 一般是断点续传 很低的重复消费可能性。 此回答整理自钉群“DataWorks交流群(答疑@机器人)”

  2. 如果任务重启,可能会存在重复消费的情况。 为了避免这种情况的发生,可以采取以下措施:

    1. 在任务重启时,检查消费的数据是否已经被处理过,如果已经处理过,则跳过该数据,避免重复消费。

    2. 在消费数据时,使用幂等性处理,即使同一条数据被消费多次,也不会对结果产生影响。

    3. 在数据源端,使用数据分区的方式,将数据按照一定的规则进行分区,每个分区只被一个任务消费,避免多个任务同时消费同一分区的数据。

    通过以上措施,可以有效避免实时任务重启时出现重复消费的情况。

  3. 会重复消费,可以使用sparkstream和kafka来记录消费点位。