机器学习PAI遇到个问题需要帮忙解答,运行过程中遇到如下错误?[阿里云]

机器学习PAI遇到个问题需要帮忙解答,我的配置文件设置了early_stop,模型是mmoe,在各个tower中设置评估指标为auc和gauc,但是运行过程中遇到如下错误:
补充一下,eval_results对应的是:

{
1000: {
“auc_ctr_tower”: 1.0,
“auc_cvr_tower”: 1.0,
“gauc_ctr_tower”: 1.0,
“gauc_cvr_tower”: 1.0,
“loss”: 0.005554337985813618,
“loss/loss/cross_entropy_loss_ctr_tower”: 0.0026337471790611744,
“loss/loss/cross_entropy_loss_cvr_tower”: 0.0029205905739217997,
“loss/loss/total_loss”: 0.005554337985813618
}
}

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
1 条回复 A 作者 M 管理员
  1. 这个问题可能是由于在计算AUC和GAUC时出现了一些问题。AUC(Area Under Curve)和GAUC(Group Area Under Curve)都是用于评估分类模型性能的指标,它们都是在ROC曲线(Receiver Operating Characteristic curve)的基础上计算的。

    在你的配置文件中,你设置了early_stop,这意味着当验证集上的性能不再提高时,训练过程将会提前停止。然而,这可能会导致在计算AUC和GAUC时出现一些问题,因为在训练的最后阶段,模型的性能可能已经下降,但这并不会触发early_stop

    为了解决这个问题,你可以尝试以下两种方法:

    1. 取消early_stop的设置,让模型完整地训练到最后。
    2. 在计算AUC和GAUC时,添加一些额外的检查,确保模型的性能是在提高的。例如,你可以在计算AUC和GAUC之前,先检查一下模型在验证集上的损失是否在降低。
  2. https://easyrec.readthedocs.io/en/latest/export.html
    设置一下这个参数:best_exporter_metric: “auc_ctr_tower” 试一下看看 ,此回答整理自钉群“【EasyRec】推荐算法交流群”