大数据计算MaxCompute pk表的数据地图显示的存储量和desc extended显示的不?[阿里云MaxCompute]

大数据计算MaxCompute pk表的数据地图显示的存储量和desc extended显示的不一致,肯定是按照desc 的extended为主,这部分是不是包含了部分的snaphot快照存储?pk表的FileNum也比较多,没办法手动合并,后台自动合并目前我看起来没有合并(这个 功能是不是依赖实时导入数据才行)

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
2 条回复 A 作者 M 管理员
  1. 在阿里云的大数据计算 MaxCompute 产品中,PK 表的数据存储量和 desc extended 命令显示的存储量可能会有所不同。这是因为,在 MaxCompute 中,数据存储量的计算方式和数据压缩方式可能会对存储量产生影响,导致不同的结果。

    具体来说,数据存储量的计算方式可以分为两种:数据文件大小和数据占用空间大小。数据文件大小是指数据文件在磁盘上的实际大小,而数据占用空间大小则是指数据文件在系统中占用的实际空间大小,包括数据文件大小、元数据信息、索引信息等。在 MaxCompute 中,如果启用了数据压缩功能,数据文件大小和数据占用空间大小可能会有所不同,导致存储量的计算结果不同。

  2. 在大数据计算MaxCompute中,PK表(Partitioned Table)是指根据特定字段进行分区的表。关于PK表的数据地图显示的存储量和desc extended命令显示的信息可能存在一些差异。

    当使用数据地图(Data Map)功能查看PK表时,它可以提供有关表的元数据信息、分区信息以及与每个分区相关联的存储量等详细信息。数据地图通常会根据实际存储情况来计算并显示每个分区的存储量。

    desc extended命令则是一种描述表结构和属性的命令,它提供了更全面的表描述信息,包括列名、数据类型、注释、分区列等,但不会直接显示存储量信息。

    这两种方式提供的信息属于不同的层面和目的,可能会有一些差异。数据地图主要用于可视化展示表的分区和存储量等信息,而desc extended命令主要用于获取表的结构和属性的详细描述。

    如果您需要获取更准确的存储量信息,建议使用数据地图功能来查看每个分区的存储量。如果您需要更多的表结构和属性信息,可以使用desc extended命令来获取完整的描述信息。

    需要注意的是,数据地图和desc extended命令都是MaxCompute的元数据查询工具,它们显示的信息可能受到数据更新和计算引擎状态等因素的影响。在使用时,应根据实际需求进行评估和选择。

  3. 因为数据地图里有一些临时文件之类的,所以显示的存储量会稍微大一些;
    存储使用量有这么几个地方可以看

    1. MaxCompute控制台:控制台的项目列表里可以看到项目的已用存储;
    2. 数据地图:数据地图里有project下的总量和单表存储之类的,因为数据地图里有一些临时文件之类的,所以显示的存储量会比MaxCompute控制台稍微大一些;
    3. 用量明细:可以导出MaxCompute的用量明细,通过公式计算一下。详情参考:https://help.aliyun.com/document_detail/106521.html?spm=a2c4g.608123.0.i10#p-ozp-jnl-mqf
    4. 如果需要单表存储量,以desc tablename;的结果为准,单位byte。如果需要核查MaxCompute的存储费用,以用量明细为准就行。小文件的合并系统每天都有自动合并,但时间不固定。系统自动合并的是普遍效果,不是完全覆盖所有小文件场景的,如果平台侧merge效果不好的,还是需要自己merge。
      ,此回答整理自钉群“MaxCompute开发者社区2群”