使用机器学习平台PAI,怎么创建deepspeed的分布式训练?[阿里云机器学习PAI]

使用机器学习平台PAI,怎么创建deepspeed的分布式训练
我搜文档只搜到可视化建模的EasyRec案例,咱们DLC有没有支持 deepspeed,有没有相关的案例呀 ?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
1 条回复 A 作者 M 管理员
  1. 准备数据。准备您的训练数据,并将其上传到PAI的训练数据源中。
    创建模型。使用PAI的模型训练功能创建您的模型,并设置训练参数。
    创建任务。使用PAI的任务创建功能创建您的任务,并设置训练参数,包括训练器类型、训练器参数、训练器数量等。
    启动任务。使用PAI的任务启动功能启动您的任务,并等待任务完成。
    评估模型。使用PAI的模型评估功能评估您的模型,并查看模型性能。

  2. 可以参考这个文档:https://aliyuque.antfin.com/pai/pds/nyp559r0g91g4i3t?singleDoc# 《公共云DLC提交MPIJob使用手册》,模型库转存地址:https://www.aliyun.com/activity/storage/ossmodellib,此回答整理自钉群“机器学习PAI交流群(答疑@值班)”