Flink的cdc全量同步的话对于cdc来说会一直保留着表的存量数据吗？[阿里云实时计算 Flink版]

Flink的cdc全量同步的话对于cdc来说会一直保留着表的存量数据吗？

「点点赞赏，手留余香」

还没有人赞赏，快来当第一个赞赏的人吧！

=====这是一个广告位，招租中，联系qq 78315851====

3 条回复 A 作者 M 管理员

sun20AM 2023-11-27 18:30:01 1

在Flink的CDC全量同步过程中，会保留表的存量数据。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，然后写入到消息中间件中以供其他服务进行订阅及消费。因此，全量同步阶段并不会因为使用了CDC而有所不同，存量数据仍会被保留。同时，增量监听binlog日志同步的时候也不会把全部数据都加载到内存。

已喜欢已反对
KingingAM 2023-11-27 18:30:01 2
Flink CDC (Change Data Capture) 是一种用于捕获数据库中数据变化的技术，通常用于实时数据流处理。CDC 不保留表的存量数据，它主要关注的是捕获表中发生的变更操作，如插入、更新和删除操作，然后将这些变更操作传递给下游处理或目标系统。

CDC 主要工作方式如下：

初始全量加载：当启动 CDC 任务时，通常需要进行一次全量加载操作，以确保目标系统有表的初始数据。这一次全量加载可能会从数据库中复制整个表的数据。

捕获变更：一旦进行了全量加载，CDC 会持续监测数据库中的变更操作。这包括新的插入、更新和删除操作。

发送变更：CDC 将捕获到的变更操作以数据流的形式传递给下游处理或目标系统。这可以是其他应用程序、数据仓库或数据湖等。

保持同步：CDC 会不断地捕获新的变更操作，以保持目标系统与源数据库的同步。CDC 不保留历史变更，只关注最新的变更。

因此，CDC 不会一直保留表的存量数据，它主要用于捕获和传递变更操作。如果您需要保留历史数据，您可能需要考虑其他数据同步或备份策略，如定期备份数据库表或使用数据仓库来保留历史数据。
已喜欢已反对
Star时光AM 2023-11-27 18:30:01 3
是的，Flink的CDC全量同步会一直保留表的存量数据。这是因为Flink的CDC全量同步需要读取整个表的数据，并将其转换为流数据。如果表的存量数据很大，那么这个过程可能会非常耗时和消耗资源。
为了降低这个过程的消耗，可以使用Flink的增量同步。增量同步只读取表的增量数据，并将其转换为流数据。这样，即使表的存量数据很大，也可以更快地完成数据同步。
在Flink中，可以使用Flink CDC API来实现增量同步。以下是一个使用Flink CDC API实现增量同步的示例：

Properties props = new Properties();props.setProperty("url", "jdbc:mysql://localhost:3306/testdb");props.setProperty("user", "sa");props.setProperty("password", "password");// 创建一个Flink CDC ConsumerFlinkCDCConsumer consumer = new FlinkCDCConsumer("cdc-sink", new JDBCSourceParameters(props));// 创建一个Flink CDC SourceFlinkCDCSource source = new FlinkCDCSource("cdc-source", consumer);// 创建一个Flink TableEnvironmentStreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);// 创建一个Flink Table SchemaTableSchema schema = TableSchema.builder() .field("id", DataTypes.BIGINT()) .field("name", DataTypes.STRING()) .build();// 创建一个Flink TableTable table = tableEnv.fromSource(source, schema);// 执行查询tableEnv.executeSql("SELECT * FROM cdc-source");

在这个示例中，我们首先创建了一个Flink CDC Consumer，然后创建了一个Flink CDC Source，并将这两个对象连接在一起。然后，我们创建了一个Flink TableEnvironment，并创建了一个Flink Table Schema和一个Flink Table。最后，我们执行了一个查询，将MySQL中的增量数据转换为流数据。
需要注意的是，Flink CDC需要在MySQL上安装CDC服务，并且需要设置正确的配置信息。此外，我们还需要注意数据源的稳定性和可靠性，以确保数据处理任务的正常运行。
已喜欢已反对
圆不溜秋的小猫猫AM 2023-11-27 18:30:01 4

不会动你源数据库的数据。此回答整理自钉群“实时计算Flink产品交流群”

已喜欢已反对

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Flink的cdc全量同步的话 对于cdc来说会一直保留着表的存量数据吗？[阿里云实时计算 Flink版] 暂停朗读为您朗读

Flink的cdc全量同步的话对于cdc来说会一直保留着表的存量数据吗？[阿里云实时计算 Flink版]