机器学习PAI中我们有个问题哈,我们监控发现,cpu利用率不高,内存利用率也不高但是rt会出现异常?[阿里云机器学习PAI]

机器学习PAI中我们有个问题哈,我们监控发现,cpu利用率不高,内存利用率也不高,但是rt会出现异常高间断的情况?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
2 条回复 A 作者 M 管理员
  1. 程序设计问题:机器学习算法的实现可能存在效率低下、算法复杂度过高等问题,这些都可能导致 RT 升高。

  2. 如果在PAI中CPU和内存利用率不高,但是RT(响应时间)会出现异常高间断的情况,可能是因为以下原因之一:

    1. 数据库查询问题:如果你的应用程序使用了数据库查询,那么查询的响应时间可能会影响RT。如果查询执行得非常慢,那么RT可能会非常高。你可以检查数据库查询的性能,看看是否有可能优化的地方。
    2. 网络延迟问题:如果你的应用程序需要与外部系统交互,那么网络延迟可能会影响RT。如果你的网络连接不稳定,那么RT可能会非常高。你可以检查网络连接的性能,看看是否有可能优化的地方。
    3. 系统负载问题:如果系统负载过高,那么可能会导致RT升高。你可以检查系统的负载,看看是否有可能优化的地方。
    4. 应用程序性能问题:如果你的应用程序代码有问题,那么可能会导致RT升高。你可以检查应用程序的代码,看看是否有可能优化的地方。
      为了更好地诊断这个问题,你可以使用PAI提供的监控工具来查看应用程序的详细性能数据,例如CPU使用率、内存使用率、网络延迟、系统负载等。这将有助于你更好地理解问题的原因,并采取相应的措施来解决它。
  3. RT主要取决于服务实例的代码逻辑,包括前处理后处理,以及模型推理等,建议先profile下服务内运行的代码,此回答整理自钉群“机器学习PAI交流群(答疑@值班)”