机器学习PAI在这个镜像中或以找到GPU,export出一个镜像, 然后镜像就会出问题, 什么原因?[阿里云机器学习PAI]

机器学习PAI在这个镜像中或以找到GPU, registry.cn-shanghai.aliyuncs.com/myjktest/deeprec:deeprec2302-gpu-py38-cu116-ubuntu20.04-hupu, 但是这个镜像太大, 我将bazel cache 删除了, export出一个镜像, 然后那个镜像就会出问题, 这是什么原因呢?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
1 条回复 A 作者 M 管理员
  1. 可能的原因是您在创建新的镜像时,未将 CUDA 和 cuDNN 等 GPU 相关软件重新安装和配置,导致新的镜像中缺少 GPU 相关文件,无法正常识别 GPU。

    解决此问题,您可以尝试在创建新的镜像时,确保重新安装和配置 CUDA 和 cuDNN 等 GPU 相关软件,并更新相关环境变量等配置。具体步骤如下:

    1. 使用原始镜像

    重新使用原始的镜像,确保其中所有的 GPU 相关软件和配置都完整无缺。您可以直接在原始镜像中进行程序开发和训练等工作,或者将原始镜像作为基础镜像,在其中进行必要的安装和配置。

    1. 安装 CUDA 和 cuDNN

    您需要在新的镜像中重新安装 CUDA 和 cuDNN 等 GPU 相关软件,并配置环境变量等相关配置。

    1. 更新镜像配置

    更新新的镜像配置,并在其中设置正确的环境变量、安装必要的软件等,并确保 GPU 相关文件已正确安装和配置。

    1. 检查 GPU 相关配置

    检查您的新镜像中是否正确安装和配置了 CUDA 和 cuDNN 等 GPU 相关软件。在您的新镜像中运行 GPU 相关程序时,应该能够正确识别 GPU 并正常工作。

  2. 如果用来release的镜像,最好是以base镜像安装whl的流程,dev镜像里安装了太多东西,不适合直接作为上线跑任务使用的镜像 如果用来release的镜像,最好是以base镜像安装whl的流程,dev镜像里安装了太多东西,不适合直接作为上线跑任务使用的镜像,此回答整理自钉群“DeepRec用户群”