DataWorks报警指标有哪些？[阿里云]

DataWorks报警指标有哪些？

以下为热心网友提供的参考意见

阿里云DataWorks提供了丰富的报警功能，其支持的报警指标涵盖了数据开发、数据集成、数据服务等场景中的多种监控点。以下是一些常见的报警指标类型：

任务运行状态：
- 任务失败：当某个任务执行失败时触发报警。
- 任务延迟：任务执行超过预期时间阈值（如调度时间与实际完成时间之间的差距）。
资源使用情况：
- 计算资源（如MaxCompute CU消耗）超出预设阈值。
- 存储空间接近或达到上限。
数据质量：
- 数据完整性检查：表记录数低于或高于设定的阈值。
- 数据一致性检查：基于业务规则的数据校验失败，例如缺失值、空值、唯一性约束违反等。
数据集成：
- 数据同步任务异常：全量同步、增量同步任务失败或者数据迁移过程中出现错误。
- 同步延迟：数据从源到目标系统的传输时间超过预定阈值。
调度依赖：
- 任务依赖未满足：上游任务未成功执行导致下游任务无法正常启动。
性能指标：
- SQL查询性能问题：SQL作业执行时间过长、内存使用过高或其他性能瓶颈。
自定义报警规则：
- 用户可以根据实际需求设置特定的自定义报警指标，比如基于SQL查询结果的统计信息进行报警。
WebHook报警和钉钉/短信/邮件通知：
- 可以配置将报警信息通过WebHook发送至其他系统，或者直接通过钉钉机器人、短信、邮件等方式发送给指定接收人。

在DataWorks中设置报警通常需要定义具体的报警策略，包括选择要监控的任务或对象、设置阈值条件以及告警间隔等参数。

以下为热心网友提供的参考意见

DataWorks的运维中心提供了实时同步任务的报警规则设置，支持的报警指标包括：任务状态、业务延迟、消息堆积量（仅Kafka源）、Failover、DDL不支持、DDL通知和脏数据。

DataWorks对实时同步任务设置告警时，支持多种告警接收方式，包括邮件、短信、电话、钉钉和webhook。同时，也可以在报警资源页面查看当日和本月的报警资源使用情况，包括数据集成、智能监控和数据质量等模块产生的报警短信和电话的数量。此外，智能监控模块还可能产生基线预警信息和事件报警信息等。