DataWorks中OSS ReaderORC或Parquet文件读取OSS？[阿里云DataWorks]

DataWorks中OSS ReaderORC或Parquet文件读取OSS？

「点点赞赏，手留余香」

还没有人赞赏，快来当第一个赞赏的人吧！

=====这是一个广告位，招租中，联系qq 78315851====

4 条回复 A 作者 M 管理员

sun20AM 2023-11-27 21:15:12 1

在DataWorks中，可以使用OSS Reader来读取OSS上的ORC或Parquet格式的文件。这种方式是复用HDFS Reader的方式来实现的，需要在OSS Reader的参数中增加Path和FileFormat等扩展配置参数，具体的参数含义可以参考HDFS Reader。

已喜欢已反对
wljslmzAM 2023-11-27 21:15:12 2

在DataWorks中，可以使用OSS Reader组件来读取OSS上的ORC或Parquet文件。OSS Reader是DataWorks提供的一种数据处理组件，它支持读取多种数据格式，包括ORC和Parquet。

已喜欢已反对
听风de歌AM 2023-11-27 21:15:12 3

在DataWorks中，可以通过OSS Reader组件读取ORC或Parquet文件。此组件是一个通用的数据源，可以将阿里云对象存储服务（OSS）中的各种格式数据加载到DataWorks中进行处理和分析。用户只需提供OSS Bucket和Object名称，即可快速访问和处理其中的ORC或Parquet文件。

已喜欢已反对
xin在这AM 2023-11-27 21:15:12 4

目前通过复用HDFS Reader的方式完成OSS读取ORC或Parquet格式的文件，在OSS Reader已有参数的基础上，增加了Path、FileFormat等扩展配置参数，参数含义请参见HDFS Reader。以ORC文件格式读取OSS，示例如下。 {“stepType”: “oss”,”parameter”: {“datasource”: “”,”fileFormat”: “orc”,”path”: “/tests/case61/orc__691b6815_9260_40379899**“,”column”: [{“index”: 0,”type”: “long”},{“index”: “1”,”type”: “string”},{“index”: “2”,”type”: “string”}]}}以Parquet文件格式读取OSS，示例如下。{“stepType”: “oss”,”parameter”: {“datasource”: “”,”fileFormat”: “parquet”,”path”: “/tests/case61/parquet”,”parquetSchema”: “message test { required int64 int64_col;required binary str_col (UTF8);required group params (MAP) {repeated group key_value {required binary key (UTF8);required binary value (UTF8);}}required group params_arr (LIST) {repeated group list {required binary element (UTF8);}}required group params_struct {required int64 id;required binary name (UTF8);}required group params_arr_complex (LIST) {repeated group list {required group element {required int64 id;required binary name (UTF8);}}}requir
https://help.aliyun.com/document_detail/137726.html，此回答整理自钉群“DataWorks交流群(答疑@机器人)”

已喜欢已反对
小周sirAM 2023-11-27 21:15:12 5

在DataWorks中，您可以通过复用HDFS Reader的方式来读取OSS中的ORC或Parquet文件。具体而言，您需要在OSS Reader的参数中添加Path和FileFormat等扩展配置参数。这些参数的具体含义可以参见HDFS Reader的帮助文档。
另外，您可以使用ORC和Parquet文件格式来存储大数据。这两种文件格式都可以将数据以二进制方式存储，因此无法直接读取。ORC文件包含多个stripe，每个stripe包含多条记录，这些记录按照列进行独立存储；而Parquet文件则是自解析的，包含了该文件的数据和schema。
总之，在DataWorks中，您可以使用HDFS Reader的方式来读取OSS中的ORC或Parquet文件。您可以参考HDFS Reader的帮助文档来了解如何设置相关参数。

已喜欢已反对

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

DataWorks中OSS ReaderORC或Parquet文件读取OSS？[阿里云DataWorks] 暂停朗读为您朗读

DataWorks中OSS ReaderORC或Parquet文件读取OSS？[阿里云DataWorks]