请问下大数据计算MaxCompute：有哪些比较好的优化方案呢？[阿里云]

在大数据计算中，数据倾斜是指数据分布不均，在执行shuffle操作时导致某些分区的数据量远大于其他分区。这会导致处理速度变慢，从而使得整个Job的运行时间过长，甚至可能导致系统自动kill掉job。以下是一些优化数据倾斜问题的常见策略：

重新设计键（Key）：
- 避免使用高基数列作为Shuffle Key，以减少热点。
- 如果可能的话，尝试找到一个更均匀分布的替代键。
自定义分区器：
- 使用自定义的分区函数来平衡数据分配，确保每个分区接收的数据量大致相同。
- 根据业务逻辑或数据特征进行分区，比如通过哈希或者取模等方法。
调整并行度：
- 调整作业的并行度，增加worker的数量，将任务分解为更多小任务。
- 对于Spark，可以设置spark.sql.shuffle.partitions参数，控制分区数量。
聚合预处理：
- 在进行全局聚合之前，先进行局部聚合，减小需要shuffle的数据量。
数据重分布：
- 在关键步骤前对数据进行重分布，使其更均匀地分布在集群节点上。
使用Combiner：
- Combiner可以在map阶段合并部分结果，减轻reduce端的压力。
动态负载均衡：
- 利用系统的动态负载均衡机制，让系统自动重新调度任务以缓解热点。
利用广播变量和累加器：
- 对于较小的数据集，使用广播变量可以避免不必要的网络传输。
- 累加器可以帮助统计信息汇总而无需大量的shuffle。
代码优化：
- 优化算法和实现，例如尽量避免使用全局排序等昂贵的操作。

1 条回复 A 作者 M 管理员

xin在这AM 2023-12-3 11:42:24 1

看下这里哈。https://help.aliyun.com/zh/maxcompute/use-cases/data-skew-tuning?spm=a2c4g.11186623.0.i10，此回答整理自钉群“MaxCompute开发者社区2群”

已喜欢已反对
小周sirAM 2023-12-3 11:42:24 2
在大数据计算中，数据倾斜是指数据分布不均，在执行shuffle操作时导致某些分区的数据量远大于其他分区。这会导致处理速度变慢，从而使得整个Job的运行时间过长，甚至可能导致系统自动kill掉job。以下是一些优化数据倾斜问题的常见策略：

重新设计键（Key）：

避免使用高基数列作为Shuffle Key，以减少热点。

如果可能的话，尝试找到一个更均匀分布的替代键。

自定义分区器：

使用自定义的分区函数来平衡数据分配，确保每个分区接收的数据量大致相同。

根据业务逻辑或数据特征进行分区，比如通过哈希或者取模等方法。

调整并行度：

调整作业的并行度，增加worker的数量，将任务分解为更多小任务。

对于Spark，可以设置spark.sql.shuffle.partitions参数，控制分区数量。

聚合预处理：

在进行全局聚合之前，先进行局部聚合，减小需要shuffle的数据量。

数据重分布：

在关键步骤前对数据进行重分布，使其更均匀地分布在集群节点上。

使用Combiner：

Combiner可以在map阶段合并部分结果，减轻reduce端的压力。

动态负载均衡：

利用系统的动态负载均衡机制，让系统自动重新调度任务以缓解热点。

利用广播变量和累加器：

对于较小的数据集，使用广播变量可以避免不必要的网络传输。

累加器可以帮助统计信息汇总而无需大量的shuffle。

代码优化：

优化算法和实现，例如尽量避免使用全局排序等昂贵的操作。
已喜欢已反对

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

请问下大数据计算MaxCompute：有哪些比较好的优化方案呢？[阿里云] 暂停朗读为您朗读

请问下大数据计算MaxCompute：有哪些比较好的优化方案呢？[阿里云]