发表于：2023-11-20 7:50:580次点击

用dataworks 解析 oss的orc文件写入odps正常有告诉我这个是哪里配置问题吗？[阿里云DataWorks]

用dataworks 解析 oss的orc文件写入odps正常但是我用开源 datax的脚本方式去解析oss的orc文件到hdfs 读取和写入数据是异常的数据出现乱码和空值有大佬告诉我这个是哪里配置问题吗？

「点点赞赏，手留余香」

还没有人赞赏，快来当第一个赞赏的人吧！

=====这是一个广告位，招租中，联系qq 78315851====

1 条回复 A 作者 M 管理员

小周sirAM 2023-11-27 21:11:49 1
出现这种现象的原因可能有多个，以下是一些常见的原因：

字符编码问题：在 DataWorks 中可以配置字符编码，但是在 DataX 的脚本方式中则需要手动配置字符编码，否则会出现乱码和空值。

Oss 版本问题：DataWorks 和 DataX 可能使用了不同版本的 OSS，这可能导致数据读取不一致。

数据类型问题：在 DataWorks 和 DataX 中，数据类型的定义也可能存在差异，导致数据不一致。

参数问题：DataWorks 和 DataX 可能使用的参数不同，也会影响数据读取和写入的结果。
已喜欢已反对
sun20AM 2023-11-27 21:11:49 2
这个问题可能是由于DataX的配置文件中的某些设置不正确导致的。为了解决这个问题，您可以尝试以下步骤：

检查DataX的配置文件（如datax.json），确保所有必要的配置项都已正确设置，例如：

reader部分：确保fileType设置为orc，并正确配置path和column等参数。

writer部分：确保fileType设置为hdfs，并正确配置path、column等参数。

在配置文件中添加splitter部分，以便DataX可以正确地将数据分片。例如：

"splitter": { "type": "record", "recordLength": 1000000, "recordCount": 10}

在配置文件中添加compressor部分，以便DataX可以正确地压缩数据。例如：

"compressor": { "type": "gzip"}

保存配置文件并重新运行DataX任务。如果问题仍然存在，请查看DataX的日志文件以获取更多详细信息，并根据日志中的错误信息进行相应的调整。
已喜欢已反对

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

用dataworks 解析 oss的orc文件写入odps正常 有告诉我这个是哪里配置问题吗？[阿里云DataWorks] 暂停朗读为您朗读

用dataworks 解析 oss的orc文件写入odps正常有告诉我这个是哪里配置问题吗？[阿里云DataWorks]