机器学习PAI我们用了分布式训练(4个Worker),比单机(1个Worker),用PAI-TF进行训练,时间上看分布式训练和单机训练是一样的(甚至还慢一些)。麻烦帮忙看下?
机器学习PAI我们用了分布式训练(4个Worker),比单机(1个Worker),麻烦帮忙看下?[阿里云机器学习PAI]
「点点赞赏,手留余香」
还没有人赞赏,快来当第一个赞赏的人吧!
机器学习PAI我们用了分布式训练(4个Worker),比单机(1个Worker),用PAI-TF进行训练,时间上看分布式训练和单机训练是一样的(甚至还慢一些)。麻烦帮忙看下?
是的,同步模式下,4 worker的设置num_steps / 4就可以了,batch_size设置的是单worker的batch_size,如果设置一样,那数据过了4倍。,此回答整理自钉群“【EasyRec】推荐算法交流群”
首先,分布式训练的目标是加速模型训练过程,通常在大规模数据和/或复杂模型的情况下使用。然而,如果您的分布式训练和单机训练时间相同,甚至更慢,可能有以下几个原因:
为了解决这些问题,您可以尝试以下方法:
最后,您也可以考虑使用PAI的优化功能,例如自动混合精度训练、梯度累积等,这些功能可以帮助加速模型训练过程。