我昨天在使用机器学习PAI时，调用transform方法进行预测之后进行打印，发现某些参与预测的字段[阿里云机器学习PAI]

我昨天在使用机器学习PAI时，调用transform方法进行预测之后进行打印，发现某些参与预测的字段在预测前跟预测后不一样，请问是什么原因会导致这种情况呢？（训练跟预测的时候参数顺序一致）

「点点赞赏，手留余香」

还没有人赞赏，快来当第一个赞赏的人吧！

如果在使用机器学习PAI的transform方法进行预测时，发现某些字段在预测前后不一致，可能有以下原因导致：

特征处理：在训练模型时，你可能对输入数据进行了一些特征处理，例如缺失值填充、标准化或编码。如果在预测时没有正确应用相同的特征处理步骤，那么字段的取值就会出现差异。
数据格式转换：在训练和预测过程中，数据传递的方式和格式可能不同。如果在传递数据时有所变化，如从文件读取到内存或从列表传递到API接口，数据的格式、顺序或类型可能会发生变化，进而导致字段不一致。
版本不一致：模型训练和预测过程中使用的库、框架或工具版本可能不一致，这可能导致一些隐含的差异。确保在训练和预测环境中使用相同的库和版本可以减少这种情况的发生。
数据漂移：如果在训练和预测之间存在时间差或数据源变化等情况，那么输入数据的分布可能会发生变化，这可能导致字段值的差异。

1 条回复 A 作者 M 管理员

Star时光AM 2023-11-28 2:49:03 1
如果在使用机器学习PAI的transform方法进行预测时，发现某些字段在预测前后不一致，可能有以下原因导致：

特征处理：在训练模型时，你可能对输入数据进行了一些特征处理，例如缺失值填充、标准化或编码。如果在预测时没有正确应用相同的特征处理步骤，那么字段的取值就会出现差异。

数据格式转换：在训练和预测过程中，数据传递的方式和格式可能不同。如果在传递数据时有所变化，如从文件读取到内存或从列表传递到API接口，数据的格式、顺序或类型可能会发生变化，进而导致字段不一致。

版本不一致：模型训练和预测过程中使用的库、框架或工具版本可能不一致，这可能导致一些隐含的差异。确保在训练和预测环境中使用相同的库和版本可以减少这种情况的发生。

数据漂移：如果在训练和预测之间存在时间差或数据源变化等情况，那么输入数据的分布可能会发生变化，这可能导致字段值的差异。
已喜欢已反对
一颗橙子11111AM 2023-11-28 2:49:03 2

这个pipeline model有两步，第一步是标准化，标准化没有设置OUTPUT_COLS，会直接用标准化的结果替换。可以在StandardScaler里设置，此回答来自钉群“Alink开源–用户群”

已喜欢已反对

我昨天在使用机器学习PAI时，调用transform方法进行预测之后进行打印，发现某些参与预测的字段[阿里云机器学习PAI] 暂停朗读为您朗读