tongchenkeji 发表于:2023-4-3 23:16:190次点击 已关注取消关注 关注 私信 你好 我想问下, 实时任务读取datahub,如果任务重启是否会存在重复消费[阿里云DataWorks] 暂停朗读为您朗读 你好 我想问下, 实时任务读取datahub,如果任务重启是否会存在重复消费 「点点赞赏,手留余香」 赞赏 还没有人赞赏,快来当第一个赞赏的人吧! 海报 DataWorks# 数据总线 DataHub25
vohelonAM 2023-11-27 21:16:51 2 如果任务重启,可能会存在重复消费的情况。 为了避免这种情况的发生,可以采取以下措施: 在任务重启时,检查消费的数据是否已经被处理过,如果已经处理过,则跳过该数据,避免重复消费。 在消费数据时,使用幂等性处理,即使同一条数据被消费多次,也不会对结果产生影响。 在数据源端,使用数据分区的方式,将数据按照一定的规则进行分区,每个分区只被一个任务消费,避免多个任务同时消费同一分区的数据。 通过以上措施,可以有效避免实时任务重启时出现重复消费的情况。
一般是断点续传 很低的重复消费可能性。 此回答整理自钉群“DataWorks交流群(答疑@机器人)”
如果任务重启,可能会存在重复消费的情况。 为了避免这种情况的发生,可以采取以下措施:
在任务重启时,检查消费的数据是否已经被处理过,如果已经处理过,则跳过该数据,避免重复消费。
在消费数据时,使用幂等性处理,即使同一条数据被消费多次,也不会对结果产生影响。
在数据源端,使用数据分区的方式,将数据按照一定的规则进行分区,每个分区只被一个任务消费,避免多个任务同时消费同一分区的数据。
通过以上措施,可以有效避免实时任务重启时出现重复消费的情况。
会重复消费,可以使用sparkstream和kafka来记录消费点位。