“万卷·丝路”多语言预训练语料库为多语言大模型训练提供高质量数据支撑,首期开源了包含泰、俄、阿、韩、越等五个语种的语料,总规模超1.2TB,Token总数超过300B,涵盖使用上述语种国家地区的生活、百科、文化、新闻等七大领域数据。
语料库免费下载链接(请用PC端打开):https://opendatalab.com/applyMultilingualCorpus
评价对象得分