tongchenkeji 发表于:2023-7-13 15:18:470次点击 已关注取消关注 关注 私信 Flink CDC 你们用hudi,使用那种table type居多啊?[阿里云实时计算 Flink版] 暂停朗读为您朗读 Flink CDC 你们用hudi,使用那种table type居多啊? 「点点赞赏,手留余香」 赞赏 还没有人赞赏,快来当第一个赞赏的人吧! 海报 实时计算Flink版# 实时计算 Flink版3179# 流计算2236
算精通AM 2023-11-27 18:39:40 1 link CDC 与 Hudi 结合使用时,常用的 Table Type 主要有以下两种: Copy-on-Write(COW)Table:COW Table 是 Hudi 默认的 Table Type,它使用了写时复制(Copy-on-Write)机制来实现数据的版本管理和快照读取。在 CDC 场景中,你可以使用 Flink CDC 抽取数据,并将数据写入到 COW Table 中,然后使用 Hudi 提供的快照读取功能,来查询历史版本的数据。 Merge-on-Read(MOR)Table:MOR Table 是 Hudi 的另一种 Table Type,它使用了延迟合并(Merge-on-Read)机制来实现数据的版本管理和增量更新。在 CDC 场景中,你可以使用 Flink CDC 抽取数据,并将数据写入到 MOR Table 中,然后使用 Hudi 提供的增量更新功能,来更新数据的历史版本。 通常情况下,COW Table 是 Hudi 的默认 Table Type,并且在大多数场景下都能够满足需求。如果你需要实时更新数据,并且需要快速查询历史版本的数据,可以考虑使用 MOR Table。不过,MOR Table 的性能可能会受到一些限制,例如需要更多的存储空间和计算资源,同时也需要更复杂的数据管理和维护工作。
Star时光AM 2023-11-27 18:39:40 2 作为一个语言模型,我无法提供特定公司或团队在使用 Flink CDC 中的 Hudi 时的详细信息。然而,根据一般经验和用户反馈,以下是在 Flink CDC 中使用 Hudi 时常见的表类型: Copy on Write(写时复制):使用 Copy on Write (COW) 表类型时,每次更新都会创建新的文件版本,旧版本保持不变。这种表类型适用于频繁写入、少量更新的场景,并且对查询性能要求较高。 Merge on Read(读时合并):使用 Merge on Read (MOR) 表类型时,数据被写入到基础存储中,但没有立即合并。相反,合并操作在进行查询时完成。这种表类型适用于大规模写入以及需要频繁更新和查询的场景。 具体选择何种表类型取决于您的业务需求和数据访问模式。如果您希望获得更多关于 Hudi 的详细信息和最佳实践,请参阅 Hudi 官方文档或与 Hudi 社区互动。
武当张三丰丶AM 2023-11-27 18:39:40 3 Flink CDC 使用 Hudi 时,通常会使用以下几种 table type: COPY_ON_WRITE:这种 table type 适用于需要频繁更新的数据表。它会在每次写入数据时创建一个新的分区,并将数据写入新分区中。这样可以避免在更新数据时对已有数据的修改。 SEQUENTIAL:这种 table type 适用于需要按照时间顺序存储数据的数据表。它会按照时间戳将数据写入不同的分区中,保证数据的有序性。 UNION ALL:这种 table type 适用于需要合并多个数据源的数据表。它可以将多个数据源的数据合并成一个数据表,并按照时间戳排序。 MERGE ON INSERT:这种 table type 适用于需要在插入数据时进行更新的数据表。它会在插入数据时检查是否存在相同的记录,如果存在则进行更新,否则插入新的记录。 MERGE ON UPDATE:这种 table type 适用于需要在更新数据时进行更新的数据表。它会在更新数据时检查是否存在相同的记录,如果存在则进行更新,否则不进行任何操作。
link CDC 与 Hudi 结合使用时,常用的 Table Type 主要有以下两种:
Copy-on-Write(COW)Table:COW Table 是 Hudi 默认的 Table Type,它使用了写时复制(Copy-on-Write)机制来实现数据的版本管理和快照读取。在 CDC 场景中,你可以使用 Flink CDC 抽取数据,并将数据写入到 COW Table 中,然后使用 Hudi 提供的快照读取功能,来查询历史版本的数据。
Merge-on-Read(MOR)Table:MOR Table 是 Hudi 的另一种 Table Type,它使用了延迟合并(Merge-on-Read)机制来实现数据的版本管理和增量更新。在 CDC 场景中,你可以使用 Flink CDC 抽取数据,并将数据写入到 MOR Table 中,然后使用 Hudi 提供的增量更新功能,来更新数据的历史版本。
通常情况下,COW Table 是 Hudi 的默认 Table Type,并且在大多数场景下都能够满足需求。如果你需要实时更新数据,并且需要快速查询历史版本的数据,可以考虑使用 MOR Table。不过,MOR Table 的性能可能会受到一些限制,例如需要更多的存储空间和计算资源,同时也需要更复杂的数据管理和维护工作。
作为一个语言模型,我无法提供特定公司或团队在使用 Flink CDC 中的 Hudi 时的详细信息。然而,根据一般经验和用户反馈,以下是在 Flink CDC 中使用 Hudi 时常见的表类型:
Copy on Write(写时复制):
使用 Copy on Write (COW) 表类型时,每次更新都会创建新的文件版本,旧版本保持不变。这种表类型适用于频繁写入、少量更新的场景,并且对查询性能要求较高。
Merge on Read(读时合并):
使用 Merge on Read (MOR) 表类型时,数据被写入到基础存储中,但没有立即合并。相反,合并操作在进行查询时完成。这种表类型适用于大规模写入以及需要频繁更新和查询的场景。
具体选择何种表类型取决于您的业务需求和数据访问模式。如果您希望获得更多关于 Hudi 的详细信息和最佳实践,请参阅 Hudi 官方文档或与 Hudi 社区互动。
Flink CDC 使用 Hudi 时,通常会使用以下几种 table type:
COPY_ON_WRITE:这种 table type 适用于需要频繁更新的数据表。它会在每次写入数据时创建一个新的分区,并将数据写入新分区中。这样可以避免在更新数据时对已有数据的修改。
SEQUENTIAL:这种 table type 适用于需要按照时间顺序存储数据的数据表。它会按照时间戳将数据写入不同的分区中,保证数据的有序性。
UNION ALL:这种 table type 适用于需要合并多个数据源的数据表。它可以将多个数据源的数据合并成一个数据表,并按照时间戳排序。
MERGE ON INSERT:这种 table type 适用于需要在插入数据时进行更新的数据表。它会在插入数据时检查是否存在相同的记录,如果存在则进行更新,否则插入新的记录。
MERGE ON UPDATE:这种 table type 适用于需要在更新数据时进行更新的数据表。它会在更新数据时检查是否存在相同的记录,如果存在则进行更新,否则不进行任何操作。