8月15日 消息:上海 AI 实验室联合语料数据联盟成员共同开源发布了高质量多模态预训练语料 “书生・万卷”1.0。上海实验室开生万 据悉,源书预训这个语料库包含了文本数据集
、卷多移民最便宜的国家只要5万图文数据集和视频数据集,模态总量超过2TB。练语料塞尔维亚出国劳务招聘其中包括超过5亿个文本、上海实验室开生万非洲出国劳务招聘信息2200万个图文交错文档和1000个节目影像视频。源书预训 这些数据经过细粒度清洗、卷多去重和价值对齐等处理
,模态具备多元融合 、练语料精细处理、上海实验室开生万价值对齐和易用高效的源书预训特点。日本打工 上海 AI 实验室表示,卷多开源发布 “书生・万卷” 有助于降低大模型技术的模态门槛,推动大模型的练语料应用和创新 。该语料数据联盟旨在通过联合多方机构打造高质量的语料数据,探索形成可持续运行的激励机制
,打造国际化
、开放型的大模型语料数据生态圈。 地址 :https://opendatalab.org.cn/WanJuan1.0 开源地址:https://github.com/opendatalab/WanJuan1.0