想问下机器学习PAI,遇到SaveV3这个op的问题,该怎么解决呢?[阿里云机器学习PAI]

想问下机器学习PAI,用Triton Inference Server 22.05 部署模型,遇到SaveV3这个op的问题,该怎么解决呢?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
2 条回复 A 作者 M 管理员
  1. 你部署Triton的时候的tensorflow.so 需要换成DeepRec的so,此回答整理自钉群“DeepRec用户群”

  2. PAI(Product AI)是阿里云提供的一款机器学习平台,它可以帮助用户方便地进行模型的训练和部署。在使用PAI部署模型时,可能会遇到各种问题,其中就包括SaveV3这个op的问题。

    SaveV3是PAI的一个特性,主要用于保存模型训练的结果。如果在部署模型时遇到SaveV3的问题,可以尝试以下方法来解决:

    1. 检查模型文件:确保你的模型文件是正确的,并且包含了所有的模型参数。你可以使用PAI的模型查看工具来检查模型文件。

    2. 检查环境配置:确保你的环境配置是正确的,包括Python版本、库版本等。你可以使用PAI的环境检查工具来检查环境配置。

    3. 检查模型部署脚本:确保你的模型部署脚本是正确的,并且包含了所有的模型部署步骤。你可以使用PAI的模型部署工具来检查模型部署脚本。

  3. 当您在部署模型时遇到 “SaveV3” 这个 op 的问题时,可能是由于 Triton Inference Server 不支持某些 TensorFlow 操作,而 SaveV3 就是其中之一。
    为了解决这个问题,您可以尝试以下几种解决方案:

    • 在保存模型时移除 SaveV3 操作:您可以使用 tf.train.Checkpoint 或其他替代方案来替换 SaveV3 操作,以便在训练过程中保存和恢复模型状态,然后重新保存模型以供部署。
    • 使用更早版本的 TensorFlow:由于 Triton Inference Server 可能不支持最新版本的 TensorFlow 中的一些操作,因此您可以考虑使用较早版本的 TensorFlow 来训练模型,然后使用该模型进行部署。
    • 更改 Triton Inference Server 配置:您可以尝试更改 Triton Inference Server 的配置文件以支持 SaveV3 操作,但这需要一定的专业知识,并且可能存在潜在的风险。