DataWorks数据质量自定义规则的过滤条件有样例么?
以下为热心网友提供的参考意见
DataWorks支持自定义规则来过滤数据,这些规则可以基于分区表达式创建,用于监控指定分区的表数据情况。通常,如果模板规则无法满足您对分区表达式中数据质量的监控需求,您可以使用自定义规则。
同时,DataWorks提供了内置的表级别和字段级别的监控模板,这可以帮助您提升规则配置的效率。对于一些特定的数据库类型,如EMR、Hologres、analyticDB for PostgreSQL、CDH,在进行数据质量规则配置前,需要先进行元数据采集。
此外,DataWorks还支持自定义规则强弱,控制规则产生的影响。当数据质量校验不符合预期时,可以决定是否自动拦截问题任务、阻断脏数据向下游蔓延。规则创建后默认为强规则,但您可根据实际情况进行修改。请注意,这些功能只在DataWorks企业版及以上版本中提供。
以下为热心网友提供的参考意见
当使用DataWorks的数据质量自定义规则时,您可以根据自己的需求定义过滤条件。以下是一些示例过滤条件的样例:
-
字段值为空:
- 表达式:
field_name IS NULL
- 说明:该过滤条件适用于需要检查某个字段是否为空的情况。
- 表达式:
-
字段值不为空:
- 表达式:
field_name IS NOT NULL
- 说明:该过滤条件适用于需要检查某个字段是否非空的情况。
- 表达式:
-
字段值等于特定值:
- 表达式:
field_name = 'specific_value'
- 说明:该过滤条件适用于需要检查字段是否等于指定值的情况。将
specific_value
替换为实际的特定值。
- 表达式:
-
字段值在指定范围内:
- 表达式:
field_name BETWEEN min_value AND max_value
- 说明:该过滤条件适用于需要检查字段值是否在指定范围内的情况。将
min_value
和max_value
替换为实际的最小值和最大值。
- 表达式:
-
字段值满足正则表达式:
- 表达式:
REGEXP_LIKE(field_name, 'regex_pattern')
- 说明:该过滤条件适用于需要检查字段值是否满足特定正则表达式的情况。将
regex_pattern
替换为实际的正则表达式。
- 表达式: