请问一下机器学习PAI DSSM模型负采样item表的schema要求是什么?[阿里云机器学习PAI]

请问一下机器学习PAI DSSM模型负采样item表的schema要求是什么?负采样item表的字段是不是要求都在训练数据表里出现并且在data_configs里进行配置?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
1 条回复 A 作者 M 管理员
  1. 是的,此回答整理自钉群“【EasyRec】推荐算法交流群”

  2. 在 MaxCompute PAI DSSM 模型中,负采样 item 表的 schema 不一定要完全与训练数据表相同。但是,通常来说,负采样表的列应该至少包含训练数据表中的文本特征列,以便于 DSSM 对比评估。同时,如果负采样表中的列名不同于训练数据表中的列名,则需要在 data_configs 配置中进行映射,以便于模型识别和比较。
    以下是负采样 item 表的基本要求:

    1. 字段格式要求:负采样 item 表中的列应该采用字符串格式。
    2. 字段数量:负采样表可以包含任意数量的列,但需要确保至少包含一个与训练数据表中的文本特征列相对应的列。
    3. 字段映射:如果负采样表中的列名不同于训练数据表,则需要在 data_configs 配置中进行映射,以便于模型识别和比较。

    以下是一个负采样 item 表的例子:

    CREATE TABLE dssm_sample_table (   id INT,   title STRING,   description STRING);

    其中 id 代表样本的唯一标识符(ID),title 和 description 则分别是文本特征列。