tongchenkeji 发表于:2023-8-8 20:26:350次点击 已关注取消关注 关注 私信 大数据计算MaxCompute csv中实际有139万多条数据,通过外表读取出来只有84万多,为啥?[阿里云MaxCompute] 暂停朗读为您朗读 大数据计算MaxCompute csv中实际有139万多条数据,通过外表读取出来只有84万多,这又是什么问题呢? 「点点赞赏,手留余香」 赞赏 还没有人赞赏,快来当第一个赞赏的人吧! 海报 MaxCompute# MaxCompute2748# 云原生大数据计算服务 MaxCompute3255# 分布式计算2827# 大数据1264
算精通AM 2023-11-27 18:27:48 1 当您通过外部表读取 CSV 数据时,实际读取的数据量可能会与原始 CSV 文件中的数据量不完全相同。这可能是由于以下原因导致的: 数据过滤:在创建外部表时,您可能已经定义了一些过滤条件,以仅读取满足特定条件的数据。这可能导致部分数据被排除在外,从而导致读取的数据量减少。 数据格式问题:在读取 CSV 数据时,如果数据中存在格式错误或无效的行,MaxCompute 可能会忽略这些行并不进行读取。这可能导致一些行被跳过,从而导致读取的数据量减少。 数据分区:如果您的外部表是基于分区的,可能只有部分分区的数据被加载到外部表中,而其他分区的数据并未读取。请确保您的外部表定义正确,并包含了所有需要的分区。 数据丢失或损坏:在读取或导入数据的过程中,可能发生了数据丢失或损坏的情况,
当您通过外部表读取 CSV 数据时,实际读取的数据量可能会与原始 CSV 文件中的数据量不完全相同。这可能是由于以下原因导致的:
数据过滤:在创建外部表时,您可能已经定义了一些过滤条件,以仅读取满足特定条件的数据。这可能导致部分数据被排除在外,从而导致读取的数据量减少。
数据格式问题:在读取 CSV 数据时,如果数据中存在格式错误或无效的行,MaxCompute 可能会忽略这些行并不进行读取。这可能导致一些行被跳过,从而导致读取的数据量减少。
数据分区:如果您的外部表是基于分区的,可能只有部分分区的数据被加载到外部表中,而其他分区的数据并未读取。请确保您的外部表定义正确,并包含了所有需要的分区。
数据丢失或损坏:在读取或导入数据的过程中,可能发生了数据丢失或损坏的情况,
上边那个报错,作业应该已经失败了。,此回答整理自钉群“MaxCompute开发者社区2群”