我在使用机器学习PAI EPL的多卡数据并行模型，batch=256吃满了单张显卡的16G显存。我？[阿里云机器学习PAI]

如果你的单张显卡的显存已经被一个 batch size 为 256 的模型所完全使用，并且想要进一步增加 batch size，以利用多卡数据并行来训练模型，那么可以考虑使用自动并行（auto_parallel）来实现。

在机器学习 PAI 中，auto_parallel 是一种自动并行策略，它能够自动将计算图划分为多个设备（例如多个 GPU），并在这些设备之间进行数据并行。通过 auto_parallel，你可以有效地利用多个显卡来加速训练过程，并可以增加 batch size。

要使用 auto_parallel，你可以按照以下步骤进行操作：

导入必要的 TensorFlow 模块：
```
import tensorflow as tf
```
设置自动并行策略：
```
# 设置自动并行策略strategy = tf.distribute.experimental.MultiWorkerMirroredStrategy( tf.distribute.experimental.CollectiveCommunication.NCCL)
```
这里使用了 MultiWorkerMirroredStrategy 来实现数据并行。NCCL 是一种高效的分布式通信库，可加速多 GPU 之间的数据传输。
在模型构建之前设置分布式策略：
```
# 设置分布式策略with strategy.scope(): # 构建模型
```
在这个 with 上下文管理器中，你可以构建和定义你的模型。

通过以上步骤，你将设置好了自动并行策略，并确保在构建模型之前设置了合适的分布式策略。这样 TensorFlow 就能够自动进行数据并行，并将计算图划分到多个设备上以支持更大的 batch size。

请注意，使用自动并行时，需要确保你的机器有足够的显卡和显存来容纳增加后的 batch size。此外，在 auto_parallel 中进行训练时，可能需要根据实际情况微调一些超参数，如学习率、梯度累积等，以获得最佳的训练性能和效果。

最后，值得一提的是，auto_parallel 可能并不是适用于所有情况的最佳解决方案，具体的选择还需要结合你的硬件资源、模型复杂度和训练目标等因素进行考虑。

1 条回复 A 作者 M 管理员

Star时光AM 2023-11-28 3:09:53 1
如果你的单张显卡的显存已经被一个 batch size 为 256 的模型所完全使用，并且想要进一步增加 batch size，以利用多卡数据并行来训练模型，那么可以考虑使用自动并行（auto_parallel）来实现。

在机器学习 PAI 中，auto_parallel 是一种自动并行策略，它能够自动将计算图划分为多个设备（例如多个 GPU），并在这些设备之间进行数据并行。通过 auto_parallel，你可以有效地利用多个显卡来加速训练过程，并可以增加 batch size。

要使用 auto_parallel，你可以按照以下步骤进行操作：

导入必要的 TensorFlow 模块：

import tensorflow as tf

设置自动并行策略：

# 设置自动并行策略strategy = tf.distribute.experimental.MultiWorkerMirroredStrategy( tf.distribute.experimental.CollectiveCommunication.NCCL)

这里使用了 MultiWorkerMirroredStrategy 来实现数据并行。NCCL 是一种高效的分布式通信库，可加速多 GPU 之间的数据传输。

在模型构建之前设置分布式策略：

# 设置分布式策略with strategy.scope(): # 构建模型

在这个 with 上下文管理器中，你可以构建和定义你的模型。

通过以上步骤，你将设置好了自动并行策略，并确保在构建模型之前设置了合适的分布式策略。这样 TensorFlow 就能够自动进行数据并行，并将计算图划分到多个设备上以支持更大的 batch size。

请注意，使用自动并行时，需要确保你的机器有足够的显卡和显存来容纳增加后的 batch size。此外，在 auto_parallel 中进行训练时，可能需要根据实际情况微调一些超参数，如学习率、梯度累积等，以获得最佳的训练性能和效果。

最后，值得一提的是，auto_parallel 可能并不是适用于所有情况的最佳解决方案，具体的选择还需要结合你的硬件资源、模型复杂度和训练目标等因素进行考虑。
已喜欢已反对
xin在这AM 2023-11-28 3:09:53 2

加大batch可以使用GA，或者增加机器（增加DP并行度），此回答整理自钉群“EPL用户交流群”

已喜欢已反对

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

我在使用机器学习PAI EPL的多卡数据并行模型，batch=256吃满了单张显卡的16G显存。我？[阿里云机器学习PAI] 暂停朗读为您朗读

我在使用机器学习PAI EPL的多卡数据并行模型，batch=256吃满了单张显卡的16G显存。我？[阿里云机器学习PAI]