机器学习PAI在这个镜像中或以找到GPU，export出一个镜像, 然后镜像就会出问题, 什么原因？[阿里云机器学习PAI]

机器学习PAI在这个镜像中或以找到GPU, registry.cn-shanghai.aliyuncs.com/myjktest/deeprec:deeprec2302-gpu-py38-cu116-ubuntu20.04-hupu, 但是这个镜像太大, 我将bazel cache 删除了, export出一个镜像, 然后那个镜像就会出问题, 这是什么原因呢?

可能的原因是您在创建新的镜像时，未将 CUDA 和 cuDNN 等 GPU 相关软件重新安装和配置，导致新的镜像中缺少 GPU 相关文件，无法正常识别 GPU。

解决此问题，您可以尝试在创建新的镜像时，确保重新安装和配置 CUDA 和 cuDNN 等 GPU 相关软件，并更新相关环境变量等配置。具体步骤如下：

使用原始镜像

重新使用原始的镜像，确保其中所有的 GPU 相关软件和配置都完整无缺。您可以直接在原始镜像中进行程序开发和训练等工作，或者将原始镜像作为基础镜像，在其中进行必要的安装和配置。

安装 CUDA 和 cuDNN

您需要在新的镜像中重新安装 CUDA 和 cuDNN 等 GPU 相关软件，并配置环境变量等相关配置。

更新镜像配置

更新新的镜像配置，并在其中设置正确的环境变量、安装必要的软件等，并确保 GPU 相关文件已正确安装和配置。

检查 GPU 相关配置

检查您的新镜像中是否正确安装和配置了 CUDA 和 cuDNN 等 GPU 相关软件。在您的新镜像中运行 GPU 相关程序时，应该能够正确识别 GPU 并正常工作。

1 条回复 A 作者 M 管理员

wljslmzAM 2023-11-28 3:06:20 1
可能的原因是您在创建新的镜像时，未将 CUDA 和 cuDNN 等 GPU 相关软件重新安装和配置，导致新的镜像中缺少 GPU 相关文件，无法正常识别 GPU。

解决此问题，您可以尝试在创建新的镜像时，确保重新安装和配置 CUDA 和 cuDNN 等 GPU 相关软件，并更新相关环境变量等配置。具体步骤如下：

使用原始镜像

重新使用原始的镜像，确保其中所有的 GPU 相关软件和配置都完整无缺。您可以直接在原始镜像中进行程序开发和训练等工作，或者将原始镜像作为基础镜像，在其中进行必要的安装和配置。

安装 CUDA 和 cuDNN

您需要在新的镜像中重新安装 CUDA 和 cuDNN 等 GPU 相关软件，并配置环境变量等相关配置。

更新镜像配置

更新新的镜像配置，并在其中设置正确的环境变量、安装必要的软件等，并确保 GPU 相关文件已正确安装和配置。

检查 GPU 相关配置

检查您的新镜像中是否正确安装和配置了 CUDA 和 cuDNN 等 GPU 相关软件。在您的新镜像中运行 GPU 相关程序时，应该能够正确识别 GPU 并正常工作。
已喜欢已反对
微笑向日葵AM 2023-11-28 3:06:20 2

如果用来release的镜像，最好是以base镜像安装whl的流程，dev镜像里安装了太多东西，不适合直接作为上线跑任务使用的镜像如果用来release的镜像，最好是以base镜像安装whl的流程，dev镜像里安装了太多东西，不适合直接作为上线跑任务使用的镜像，此回答整理自钉群“DeepRec用户群”

已喜欢已反对

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28

机器学习PAI在这个镜像中或以找到GPU，export出一个镜像, 然后镜像就会出问题, 什么原因？[阿里云机器学习PAI] 暂停朗读为您朗读

机器学习PAI在这个镜像中或以找到GPU，export出一个镜像, 然后镜像就会出问题, 什么原因？[阿里云机器学习PAI]