问下 Flink中hudi 写入s3的时候设置压缩了，生成parquet.marker.APPEN？[阿里云实时计算 Flink版]

问下 Flink中hudi 写入s3的时候设置压缩了，生成parquet.marker.APPEND log也有没有生成单独的.parquet文件呢？

「点点赞赏，手留余香」

还没有人赞赏，快来当第一个赞赏的人吧！

Hudi 是一种用于处理大规模数据更新的开源数据湖解决方案，可以将数据写入到 S3 等分布式存储系统中。根据您的问题，如果在 Flink 中使用 Hudi 将数据写入 S3 并设置了压缩，生成的文件可能是带有 .parquet.marker.APPEND 后缀的文件。

.parquet.marker.APPEND 文件是 Hudi 内部使用的标志文件，它记录了追加操作的元数据。当 Hudi 进行追加操作时，会先生成这样的标志文件，并在之后的批量操作中将数据追加到相应的 Parquet 文件中。

通常情况下，针对每个逻辑表，Hudi 会创建一个或多个 Parquet 文件，这些文件保存了实际的数据内容。这些 Parquet 文件没有 .parquet.marker.APPEND 的后缀，而是以 .parquet 结尾。

因此，如果您在 S3 上看到了 .parquet.marker.APPEND 文件，那么这只是 Hudi 内部用于管理数据更新的标志文件，并不是最终的 Parquet 数据文件。实际的数据文件应该是以 .parquet 结尾的文件。

需要注意的是，为了能够正确读取和使用 Hudi 写入的数据，您需要使用 Hudi 提供的 API 或工具来读取和处理数据，而不仅仅是直接读取 Parquet 文件。这样可以保证正确地处理数据的增量更新和时间旅行等功能。

1 条回复 A 作者 M 管理员

问下 Flink中hudi 写入s3的时候设置压缩了，生成parquet.marker.APPEN？[阿里云实时计算 Flink版] 暂停朗读为您朗读