多语言语料库“万卷·丝路”反馈

“万卷·丝路”多语言预训练语料库为多语言大模型训练提供高质量数据支撑,首期开源了包含泰、俄、阿、韩、越等五个语种的语料,总规模超1.2TB,Token总数超过300B,涵盖使用上述语种国家地区的生活、百科、文化、新闻等七大领域数据。

语料库免费下载链接(请用PC端打开):https://opendatalab.com/applyMultilingualCorpus

一、基本信息
*
1.
 姓名
*
2.
任职单位
3.
邮箱
*
4.
微信
二、“万卷丝路”语料库评价(如您已使用该语料库,欢迎提交使用反馈)
5.
数据是否真实无误?
6.
数据是否涵盖足够多的场景和类别
7.
数据规模是否足够支持分析或模型训练
*
8.
您希望使用“万卷丝路”语料库用作以下哪些课题申报(多选题)【多选题】
语言模型微调与性能优化
语音智能助手应用开发
跨语言企业出海智能工具研发
小语种大模型评价与优化机制研究
小语种语料库建设与开放
小语种对话模型对齐评测基准构建
多语言语料的自动标注与生成工具开发
多语言智能教育系统的研发与开发
其它
9.
使用“万卷丝路”语料库研究的预期成果
如:推出一款针对企业出海的多语言智能工具、建立一套完善的多语言 大模型评价机制等
*
10.
您的职业【多选题】
NLP算法研究员
基础模型研发
多语言的算法研究员
应用开发
科研工作者
其它
问卷星提供技术支持
举报