多语言语料库“万卷·丝路”反馈

“万卷·丝路”多语言预训练语料库为多语言大模型训练提供高质量数据支撑，首期开源了包含泰、俄、阿、韩、越等五个语种的语料，总规模超1.2TB，Token总数超过300B，涵盖使用上述语种国家地区的生活、百科、文化、新闻等七大领域数据。

语料库免费下载链接（请用PC端打开）：https://opendatalab.com/applyMultilingualCorpus

问卷星提供技术支持

字体大小