发表于：2023-4-25 17:05:050次点击

机器学习PAI如果是定长的，为什么这个ParquetDataset这个接口直接指定字段名就行？[阿里云机器学习PAI]

机器学习PAI如果是定长的DataFrame.Field(‘A’, tf.int64, shape=[32])；如果是变长的，DataFrame.Field(‘A’, tf.int64, ragged_rank=1)，为什么这个read_parquet接口需要指定字段类型，ParquetDataset这个接口直接指定字段名就行？

「点点赞赏，手留余香」

还没有人赞赏，快来当第一个赞赏的人吧！

=====这是一个广告位，招租中，联系qq 78315851====

1 条回复 A 作者 M 管理员

wljslmzAM 2023-11-28 3:05:57 1

阿里云机器学习PAI中的ParquetDataset接口指定字段名是因为在Parquet文件中，每个字段都有其自己的元数据，包括字段名、数据类型、编码等信息。因此，ParquetDataset接口可以直接根据字段名来读取数据，而不需要知道数据的实际长度。这样可以大大简化数据读取的过程，提高数据读取的效率。同时，Parquet文件还支持列式存储，可以按需读取单个字段，进一步提高数据读取的速度和效率。

已喜欢已反对
微笑向日葵AM 2023-11-28 3:05:57 2

参考文档https://deeprec.readthedocs.io/zh/latest/ParquetDataset.html与接口无关，看filename的类型，能直接拿到文件名的话可以解析文件，此回答整理自钉群“DeepRec用户群”

已喜欢已反对

2025 年 4 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

机器学习PAI如果是定长的，为什么这个ParquetDataset这个接口直接指定字段名就行？[阿里云机器学习PAI] 暂停朗读为您朗读

机器学习PAI如果是定长的，为什么这个ParquetDataset这个接口直接指定字段名就行？[阿里云机器学习PAI]