Flink CDC 你们用hudi,使用那种table type居多啊?[阿里云实时计算 Flink版]

Flink CDC 你们用hudi,使用那种table type居多啊?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
2 条回复 A 作者 M 管理员
  1. link CDC 与 Hudi 结合使用时,常用的 Table Type 主要有以下两种:

    Copy-on-Write(COW)Table:COW Table 是 Hudi 默认的 Table Type,它使用了写时复制(Copy-on-Write)机制来实现数据的版本管理和快照读取。在 CDC 场景中,你可以使用 Flink CDC 抽取数据,并将数据写入到 COW Table 中,然后使用 Hudi 提供的快照读取功能,来查询历史版本的数据。

    Merge-on-Read(MOR)Table:MOR Table 是 Hudi 的另一种 Table Type,它使用了延迟合并(Merge-on-Read)机制来实现数据的版本管理和增量更新。在 CDC 场景中,你可以使用 Flink CDC 抽取数据,并将数据写入到 MOR Table 中,然后使用 Hudi 提供的增量更新功能,来更新数据的历史版本。

    通常情况下,COW Table 是 Hudi 的默认 Table Type,并且在大多数场景下都能够满足需求。如果你需要实时更新数据,并且需要快速查询历史版本的数据,可以考虑使用 MOR Table。不过,MOR Table 的性能可能会受到一些限制,例如需要更多的存储空间和计算资源,同时也需要更复杂的数据管理和维护工作。

  2. 作为一个语言模型,我无法提供特定公司或团队在使用 Flink CDC 中的 Hudi 时的详细信息。然而,根据一般经验和用户反馈,以下是在 Flink CDC 中使用 Hudi 时常见的表类型:

    1. Copy on Write(写时复制):
      使用 Copy on Write (COW) 表类型时,每次更新都会创建新的文件版本,旧版本保持不变。这种表类型适用于频繁写入、少量更新的场景,并且对查询性能要求较高。

    2. Merge on Read(读时合并):
      使用 Merge on Read (MOR) 表类型时,数据被写入到基础存储中,但没有立即合并。相反,合并操作在进行查询时完成。这种表类型适用于大规模写入以及需要频繁更新和查询的场景。

    具体选择何种表类型取决于您的业务需求和数据访问模式。如果您希望获得更多关于 Hudi 的详细信息和最佳实践,请参阅 Hudi 官方文档或与 Hudi 社区互动。

  3. Flink CDC 使用 Hudi 时,通常会使用以下几种 table type:

    1. COPY_ON_WRITE:这种 table type 适用于需要频繁更新的数据表。它会在每次写入数据时创建一个新的分区,并将数据写入新分区中。这样可以避免在更新数据时对已有数据的修改。

    2. SEQUENTIAL:这种 table type 适用于需要按照时间顺序存储数据的数据表。它会按照时间戳将数据写入不同的分区中,保证数据的有序性。

    3. UNION ALL:这种 table type 适用于需要合并多个数据源的数据表。它可以将多个数据源的数据合并成一个数据表,并按照时间戳排序。

    4. MERGE ON INSERT:这种 table type 适用于需要在插入数据时进行更新的数据表。它会在插入数据时检查是否存在相同的记录,如果存在则进行更新,否则插入新的记录。

    5. MERGE ON UPDATE:这种 table type 适用于需要在更新数据时进行更新的数据表。它会在更新数据时检查是否存在相同的记录,如果存在则进行更新,否则不进行任何操作。