DataWorks报警指标有哪些?
以下为热心网友提供的参考意见
阿里云DataWorks提供了丰富的报警功能,其支持的报警指标涵盖了数据开发、数据集成、数据服务等场景中的多种监控点。以下是一些常见的报警指标类型:
-
任务运行状态:
- 任务失败:当某个任务执行失败时触发报警。
- 任务延迟:任务执行超过预期时间阈值(如调度时间与实际完成时间之间的差距)。
-
资源使用情况:
- 计算资源(如MaxCompute CU消耗)超出预设阈值。
- 存储空间接近或达到上限。
-
数据质量:
- 数据完整性检查:表记录数低于或高于设定的阈值。
- 数据一致性检查:基于业务规则的数据校验失败,例如缺失值、空值、唯一性约束违反等。
-
数据集成:
- 数据同步任务异常:全量同步、增量同步任务失败或者数据迁移过程中出现错误。
- 同步延迟:数据从源到目标系统的传输时间超过预定阈值。
-
调度依赖:
- 任务依赖未满足:上游任务未成功执行导致下游任务无法正常启动。
-
性能指标:
- SQL查询性能问题:SQL作业执行时间过长、内存使用过高或其他性能瓶颈。
-
自定义报警规则:
- 用户可以根据实际需求设置特定的自定义报警指标,比如基于SQL查询结果的统计信息进行报警。
-
WebHook报警和钉钉/短信/邮件通知:
- 可以配置将报警信息通过WebHook发送至其他系统,或者直接通过钉钉机器人、短信、邮件等方式发送给指定接收人。
在DataWorks中设置报警通常需要定义具体的报警策略,包括选择要监控的任务或对象、设置阈值条件以及告警间隔等参数。
以下为热心网友提供的参考意见
DataWorks的运维中心提供了实时同步任务的报警规则设置,支持的报警指标包括:任务状态、业务延迟、消息堆积量(仅Kafka源)、Failover、DDL不支持、DDL通知和脏数据。
- 任务状态:监控任务是否正常运行。
- 业务延迟:监控任务的实际执行时间与预期时间的偏差。
- 消息堆积量:针对Kafka源,当消息在传输过程中出现堆积时触发报警。
- Failover:监控任务失败切换的情况。
- DDL不支持:即将下线的DDL操作无法被支持和执行。
- DDL通知:在DDL操作发生时发送的通知。
- 脏数据:检测到的数据质量问题,如数据不一致等。
DataWorks对实时同步任务设置告警时,支持多种告警接收方式,包括邮件、短信、电话、钉钉和webhook。同时,也可以在报警资源页面查看当日和本月的报警资源使用情况,包括数据集成、智能监控和数据质量等模块产生的报警短信和电话的数量。此外,智能监控模块还可能产生基线预警信息和事件报警信息等。