有朋友使用过Flink多张流表进行join产生的数据倾斜如何处理和优化的?[阿里云实时计算 Flink版]

有朋友使用过Flink多张流表进行join产生的数据倾斜如何处理和优化的??

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
1 条回复 A 作者 M 管理员
  1. 我想到四个方法,你可以去试一下

    将数据进行重分区,使用HashPartitioner或者RangePartitioner。

    使用Flink的Rebalance算子,将数据重新分发到不同的TaskManager上

    使用Flink的CoGroup算子,将多张流表进行join操作

    使用Flink的MapPartition算子,将多张流表进行join操作

  2. flink有个重分区的算子,不过你先调研一下是哪些数据发生数据倾斜呀——该回答整理自钉群“【③群】Apache Flink China社区”