在机器学习PAI里我训练2个epoch后,想再训练1个epoch,就会被叫停,为什么?[阿里云机器学习PAI]

问题1:请问一下,在机器学习PAI里我训练2个epoch之后,想continue再训练1个epoch,但下1000步就会被checkpointSaverListener叫停训练是因为什么? 这是我的训练配置。没有设置num_step, 设置了num_epochs。 问题2:每次continue训练都需要删除ESTIMATOR_TRAIN_DONE这个文件吗?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
1 条回复 A 作者 M 管理员
  1. 有可能是由于阿里云机器学习PAI的资源限制导致的。阿里云PAI的资源分配是根据您的账户等级和您当前选择的实例类型来分配的,如果您的资源不足,就可能会被叫停,无法完成训练任务。此外,可能还有其他因素,比如您训练的数据量过大,导致训练过程会耗费很长时间,这也可能会导致被叫停。建议您优化训练数据和模型,精简训练过程,以充分利用PAI的资源,并获得更好的训练效果。

  2. 针对问题1的回答:把目录下面的ESTIMATOR_TRAIN_DONE文件删掉,再继续 针对问题2的回答:嗯嗯 此回答整理自钉群:“【EasyRec】推荐算法交流群”