请教一下,这个报错一半是什么原因引起的?怎么解决?[阿里云云原生数据仓库]

FAILED: ODPS-0010000:System internal error – fuxi job failed, caused by: ShuffleServiceMode: Dump checkpoint failed请教一下,这个报错一半是什么原因引起的?怎么解决?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
3 条回复 A 作者 M 管理员
  1. 这个错误提示是MaxCompute Shuffle Service在作业执行期间发生了错误。

    可以尝试一下:

    1、提高Map任务的内存限制

    2、增加Shuffle节点的数量,以减轻单个Shuffle节点的负载

  2. 这个错误提示来自 MaxCompute 的一个系统内部错误 – fuxi job 失败,可能的原因是shuffle服务模式中的Dump Checkpoint失败了。要解决此问题,可以采取以下步骤:

    • 首先,尝试重新执行作业,看看是否仍然出现相同的错误提示。如果错误仍然存在,尝试下一步。

    • 检查作业设置是否正确。确保传递给MaxCompute的参数与表结构和存储格式无冲突。

    • 如果使用了ShuffleService,可以尝试重新启动集群来强制重新启动shuffle服务。如果您使用的是MapReduce任务,则可以尝试通过手动调整reduce task数量来减少shuffle数据量。

    • 如果仍然无法解决问题,可以联系MaxCompute团队获取进一步的帮助和支持。

  3. 这个错误提示是MaxCompute Shuffle Service在作业执行期间发生了错误。

    可以尝试一下:

    1、提高Map任务的内存限制

    2、增加Shuffle节点的数量,以减轻单个Shuffle节点的负载

    此回答整理自钉群“MaxCompute开发者社区1群”