请问黑盒化加速如何制作mmap类型的预训练数据集?[阿里云机器学习PAI]

请问黑盒化加速如何制作mmap类型的预训练数据集?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
1 条回复 A 作者 M 管理员
  1. mmap数据集制作脚本可以参照如下命令:

    python preprocess_data.py   --input book_wiki_owtv2_small.json    --output-prefix gpt_small   --vocab gpt2-vocab.json   --dataset-impl mmap   --tokenizer-type GPT2BPETokenizer   --merge-file gpt2-merges.txt   --append-eod

  2. 需要准备一个mmap类型的预训练数据集,这个数据集可以是一个文本文件,也可以是一个图像文件,或者是一个视频文件。然后,使用黑盒化加速工具将这个数据集转换成mmap类型的预训练数据集。最后,将mmap类型的预训练数据集放入模型训练程序中,以便模型可以从中获取数据进行训练。