tongchenkeji 发表于:2023-10-16 21:56:460次点击 已关注取消关注 关注 私信 请教下机器学习PAI-EAS部署后监控指标可以报警透传到钉钉吗?[阿里云机器学习PAI] 暂停朗读为您朗读 “请教下机器学习PAI-EAS部署后监控指标可以报警透传到钉钉吗?“ 「点点赞赏,手留余香」 赞赏 还没有人赞赏,快来当第一个赞赏的人吧! 海报 机器学习PAI# 人工智能平台 PAI1410# 机器学习深度学习1219# 监控737
听风de歌AM 2023-11-28 2:52:32 1 对于问题1,机器学习PAI-EAS部署后,可以通过监控指标报警的方式将报警信息透传到钉钉。您可以通过设置报警规则,将报警信息发送到钉钉。具体的设置步骤可以参考机器学习PAI-EAS的相关文档。 对于问题2,如果CPU和内存利用率不高,但是RT(响应时间)会出现异常高间断的情况,可能是因为系统的瓶颈在其他方面,例如网络延迟、磁盘I/O、数据库查询等。您可以尝试通过以下方法来排查问题: 1 检查网络延迟:网络延迟可能会导致系统的响应时间变慢。您可以使用网络监控工具来检查网络延迟,看看是否存在网络延迟的问题。 检查磁盘I/O:磁盘I/O可能会导致系统的响应时间变慢。您可以使用磁盘监控工具来检查磁盘I/O,看看是否存在磁盘I/O的问题。 检查数据库查询:数据库查询可能会导致系统的响应时间变慢。您可以使用数据库监控工具来检查数据库查询,看看是否存在数据库查询的问题。
小周sirAM 2023-11-28 2:52:32 2 是的,机器学习PAI-EAS部署后,您可以将监控指标通过报警功能透传到钉钉。您可以通过以下步骤实现: 在PAI-EAS控制台中,进入报警管理页面,配置报警规则。您需要选择合适的报警阈值和报警方式。 在报警方式中,选择钉钉报警。您需要输入钉钉群组号或钉钉机器人配置信息。 配置完成后,您可以启动报警功能,当监控指标达到报警阈值时,报警信息将通过钉钉透传到指定的钉钉群组或钉钉机器人。
SkyundAM 2023-11-28 2:52:32 3 在PAI-EAS的告警管理页面,创建告警规则。 在告警规则中,设置监控指标的阈值、告警触发条件等参数。 在告警规则中,选择钉钉作为告警接收方式,填写钉钉群组ID、机器人Webhook地址等参数。 保存告警规则后,当监控指标达到告警条件时,PAI-EAS会通过Webhook将告警信息发送到钉钉群组。
xin在这AM 2023-11-28 2:52:32 4 “监控指标是投递到云监控的,可以参考下云监控那边的文档配置下。 https://help.aliyun.com/zh/cms/use-cases/enable-an-alert-contact-to-receive-alert-notifications-in-a-dingtalk-group?spm=a2c4g.11174283.0.i1,此回答整理自钉群“机器学习PAI交流群(答疑@值班)””
wljslmzAM 2023-11-28 2:52:32 5 问题1:机器学习PAI-EAS部署后,可以通过配置监控指标报警规则将报警透传到钉钉。您可以按照以下步骤进行配置: 登录阿里云控制台,选择对应的地域和项目,进入机器学习PAI-EAS的管理页面。 在左侧导航栏中,选择“监控与报警”或类似选项,进入监控与报警的配置页面。 在监控与报警页面中,选择“报警规则”或类似选项,并点击“创建报警规则”。 在创建报警规则页面中,您可以设置触发报警的条件,例如指定的监控指标超过阈值等。同时,您还可以选择报警通知方式为钉钉。 配置完成后,点击“确定”或类似按钮,保存报警规则。 这样,当监控指标触发报警条件时,系统将会发送报警通知到您指定的钉钉账号中。 问题2:CPU利用率和内存利用率不高,但是出现异常高的响应时间(RT)情况可能有多种原因。以下是一些可能导致高间断RT的常见问题和解决方法: 程序性能问题:检查您的机器学习模型或计算任务代码,确保其没有性能瓶颈或资源使用不当的情况。可以进行代码优化、并行处理或资源调整等操作来提升性能。 数据处理问题:如果您的任务涉及大量数据的读取、写入或处理,可能会导致RT增加。检查数据处理过程中是否存在瓶颈,例如数据加载、转换或存储等方面。 资源配置问题:尽管CPU和内存利用率不高,但其他资源可能存在瓶颈,例如网络带宽、硬盘I/O等。确保这些资源没有成为瓶颈,并进行必要的调整和优化。 并发请求问题:高RT可能是由于同时处理大量请求而造成的。如果系统存在并发请求,可以考虑增加机器学习模型的实例数量或调整负载均衡策略来平衡请求的处理。 系统配置问题:检查机器学习PAI-EAS的配置是否合理,例如集群大小、资源分配等。根据具体情况可能需要调整配置参数以达到更好的性能和稳定性。
对于问题1,机器学习PAI-EAS部署后,可以通过监控指标报警的方式将报警信息透传到钉钉。您可以通过设置报警规则,将报警信息发送到钉钉。具体的设置步骤可以参考机器学习PAI-EAS的相关文档。
对于问题2,如果CPU和内存利用率不高,但是RT(响应时间)会出现异常高间断的情况,可能是因为系统的瓶颈在其他方面,例如网络延迟、磁盘I/O、数据库查询等。您可以尝试通过以下方法来排查问题:
1 检查网络延迟:网络延迟可能会导致系统的响应时间变慢。您可以使用网络监控工具来检查网络延迟,看看是否存在网络延迟的问题。
是的,机器学习PAI-EAS部署后,您可以将监控指标通过报警功能透传到钉钉。您可以通过以下步骤实现:
在PAI-EAS的告警管理页面,创建告警规则。
在告警规则中,设置监控指标的阈值、告警触发条件等参数。
在告警规则中,选择钉钉作为告警接收方式,填写钉钉群组ID、机器人Webhook地址等参数。
保存告警规则后,当监控指标达到告警条件时,PAI-EAS会通过Webhook将告警信息发送到钉钉群组。
“监控指标是投递到云监控的,可以参考下云监控那边的文档配置下。
https://help.aliyun.com/zh/cms/use-cases/enable-an-alert-contact-to-receive-alert-notifications-in-a-dingtalk-group?spm=a2c4g.11174283.0.i1
,此回答整理自钉群“机器学习PAI交流群(答疑@值班)””
问题1:机器学习PAI-EAS部署后,可以通过配置监控指标报警规则将报警透传到钉钉。您可以按照以下步骤进行配置:
登录阿里云控制台,选择对应的地域和项目,进入机器学习PAI-EAS的管理页面。
在左侧导航栏中,选择“监控与报警”或类似选项,进入监控与报警的配置页面。
在监控与报警页面中,选择“报警规则”或类似选项,并点击“创建报警规则”。
在创建报警规则页面中,您可以设置触发报警的条件,例如指定的监控指标超过阈值等。同时,您还可以选择报警通知方式为钉钉。
配置完成后,点击“确定”或类似按钮,保存报警规则。
这样,当监控指标触发报警条件时,系统将会发送报警通知到您指定的钉钉账号中。
问题2:CPU利用率和内存利用率不高,但是出现异常高的响应时间(RT)情况可能有多种原因。以下是一些可能导致高间断RT的常见问题和解决方法:
程序性能问题:检查您的机器学习模型或计算任务代码,确保其没有性能瓶颈或资源使用不当的情况。可以进行代码优化、并行处理或资源调整等操作来提升性能。
数据处理问题:如果您的任务涉及大量数据的读取、写入或处理,可能会导致RT增加。检查数据处理过程中是否存在瓶颈,例如数据加载、转换或存储等方面。
资源配置问题:尽管CPU和内存利用率不高,但其他资源可能存在瓶颈,例如网络带宽、硬盘I/O等。确保这些资源没有成为瓶颈,并进行必要的调整和优化。
并发请求问题:高RT可能是由于同时处理大量请求而造成的。如果系统存在并发请求,可以考虑增加机器学习模型的实例数量或调整负载均衡策略来平衡请求的处理。
系统配置问题:检查机器学习PAI-EAS的配置是否合理,例如集群大小、资源分配等。根据具体情况可能需要调整配置参数以达到更好的性能和稳定性。