tongchenkeji 发表于:2023-1-28 7:58:530次点击 已关注取消关注 关注 私信 请问黑盒化加速如何制作mmap类型的预训练数据集?[阿里云机器学习PAI] 暂停朗读为您朗读 请问黑盒化加速如何制作mmap类型的预训练数据集? 「点点赞赏,手留余香」 赞赏 还没有人赞赏,快来当第一个赞赏的人吧! 海报 机器学习PAI# 人工智能平台 PAI1410
晨光永不消逝AM 2023-11-28 2:58:31 1 mmap数据集制作脚本可以参照如下命令: python preprocess_data.py --input book_wiki_owtv2_small.json --output-prefix gpt_small --vocab gpt2-vocab.json --dataset-impl mmap --tokenizer-type GPT2BPETokenizer --merge-file gpt2-merges.txt --append-eod
认真学习的heartAM 2023-11-28 2:58:31 2 需要准备一个mmap类型的预训练数据集,这个数据集可以是一个文本文件,也可以是一个图像文件,或者是一个视频文件。然后,使用黑盒化加速工具将这个数据集转换成mmap类型的预训练数据集。最后,将mmap类型的预训练数据集放入模型训练程序中,以便模型可以从中获取数据进行训练。
mmap数据集制作脚本可以参照如下命令:
需要准备一个mmap类型的预训练数据集,这个数据集可以是一个文本文件,也可以是一个图像文件,或者是一个视频文件。然后,使用黑盒化加速工具将这个数据集转换成mmap类型的预训练数据集。最后,将mmap类型的预训练数据集放入模型训练程序中,以便模型可以从中获取数据进行训练。