请问机器学习PAI这个是哪里看是否使用?[阿里云机器学习PAI]

请问机器学习PAI这个是哪里看是否使用? 最早的错误是执行任务流 报错: FAILED: Failed Task train:kOtherError:No available cluster has the required feature: fuxi_gpu,gpu_with_vm_cuda8。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
3 条回复 A 作者 M 管理员
  1. 阿里云的机器学习PAI是一个基于Apache Flink的分布式计算平台,用于构建和运行大数据机器学习任务。要查看是否使用了PAI,可以登录到PAI控制台,然后在左侧导航栏中选择“作业管理”,查看已提交的作业列表。

    关于您遇到的错误,这个错误表示没有可用的集群具有所需的功能:fuxi_gpu,gpu_with_vm_cuda8。这意味着您的集群不支持这些GPU资源。您可以尝试以下方法解决这个问题:

    1. 检查您的集群配置,确保它支持所需的GPU资源。您可以在PAI控制台中查看集群的配置信息。

    2. 如果需要,您可以创建一个新的集群,该集群支持所需的GPU资源。在PAI控制台中,选择“集群管理”,然后点击“创建集群”按钮,按照提示填写相关信息。

    3. 如果您不需要使用GPU资源,可以考虑将任务迁移到其他支持所需资源的集群上。在PAI控制台中,选择“作业管理”,找到您需要迁移的任务,然后点击“编辑”按钮,修改集群配置为支持所需资源的集群。

  2. 如果在机器学习PAI中遇到“Failed Task train:kOtherError:No available cluster has the required feature: fuxi_gpu,gpu_with_vm_cuda8”错误,可能是因为当前的集群没有满足任务需求的资源。
    您可以在PAI控制台中查看集群的资源情况,以确定是否满足任务需求。如果集群没有满足任务需求的资源,可以考虑升级集群或者选择其他集群进行训练。
    另外,如果在PAI控制台中无法查看集群的资源情况,可能是因为您没有相应的权限。您可以联系PAI的管理员,询问是否有权限查看集群的资源情况。

  3. 这个错误信息表明你的机器上没有可用的GPU集群,因此无法运行GPU相关的任务。这可能是由于以下几个原因:

    1. 你没有安装正确的GPU驱动程序或CUDA版本。
    2. 你没有正确配置PAI的环境变量。
    3. PAI的GPU服务没有正常运行。

    你可以尝试以下步骤来解决这个问题:

    1. 检查你的GPU驱动程序和CUDA版本,确保它们是正确的并且已经正确安装。
    2. 检查你的PAI环境变量,确保它们指向正确的GPU服务和CUDA路径。
    3. 重启PAI的GPU服务,确保它正在运行。
  4. 回到工作空间详情的页面,可以在最右侧看到工作空间详情,里面有一栏是计算资源,可以在这里查看是否开通了MaxCompute相关的资源。看了一下报错信息,好像是有一条数据格式不对导致的,可以检查下226043行的这条数据
    ,此回答整理自钉群“机器学习PAI交流群(答疑@值班)”