请教个机器学习PAI问题，我看hit_rate.py这个文件，这是如何执行的计算呢？[阿里云机器学习PAI]

请教个机器学习PAI问题，我看hit_rate.py这个文件，job_name=ps时，我看这里开启server后，就没别的内容了，这是如何执行的计算呢？

楼主你好，看了你的问题，TensorFlow分布式训练代码的执行过程，有两种类型的节点：参数服务器（Parameter Server, PS）和工作节点（Worker）。在hit_rate.py文件中，当job_name为ps时，代码会执行参数服务器的代码逻辑。

而且参数服务器的作用是存储模型参数并处理来自工作节点的请求，以便工作节点可以从中获取参数，通过调用参数服务器服务来创建参数服务器。

在分布式训练过程中，工作节点会执行计算任务，例如前向传播和反向传播等，阿里云机器学习PAI中，通过调用TensorFlow训练任务服务来创建工作节点。所以在hit_rate.py文件中，当job_name为ps时，代码执行的是参数服务器的逻辑，而工作节点的代码逻辑则在其他文件中实现。

1 条回复 A 作者 M 管理员

xin在这AM 2023-11-28 3:04:55 1

ps有默认逻辑，等待请求并相应，你看下tf的文档。然后每个worker去执行job_name=worker的，此回答整理自钉群“【EasyRec】推荐算法交流群”

已喜欢已反对
三掌柜666AM 2023-11-28 3:04:55 2

楼主你好，看了你的问题，TensorFlow分布式训练代码的执行过程，有两种类型的节点：参数服务器（Parameter Server, PS）和工作节点（Worker）。在hit_rate.py文件中，当job_name为ps时，代码会执行参数服务器的代码逻辑。

而且参数服务器的作用是存储模型参数并处理来自工作节点的请求，以便工作节点可以从中获取参数，通过调用参数服务器服务来创建参数服务器。

在分布式训练过程中，工作节点会执行计算任务，例如前向传播和反向传播等，阿里云机器学习PAI中，通过调用TensorFlow训练任务服务来创建工作节点。所以在hit_rate.py文件中，当job_name为ps时，代码执行的是参数服务器的逻辑，而工作节点的代码逻辑则在其他文件中实现。

已喜欢已反对

请教个机器学习PAI问题，我看hit_rate.py这个文件，这是如何执行的计算呢？[阿里云机器学习PAI] 暂停朗读为您朗读