当前位置:首页 > 内容聚合

Together AI宣布RedPajama v2 用于大模子训练 大模他们意图扩张这些注释

()11月6日 音讯:Together AI宣布了RedPajama v2,宣布训练这是用于一个蕴涵30万亿符号的数据集 ,旨在支援庞大语言模子的大模钻研和开辟。高质量的宣布训练数据看待这些模子的顺利至关主要,但猎取适量的用于数据集是一项庞杂的恣意,需要少量时刻、大模资源和款项 。宣布训练

钻研职员从CommonCrawl和其余公然可用的用于网络数据中提取了原始文本数据,其中席卷40多个质量注释和去重集群 。大模他们意图扩张这些注释,宣布训练以席卷与经常使用LLM基准的用于较为、主题建模和分类注释等实质,大模以增进更透彻的宣布训练钻研 。

Together AI宣布RedPajama v2 用于大模子训练 大模他们意图扩张这些注释

所在:https://together.ai/blog/redpajama-data-v2

RedPajama v2的用于数据集还通过最小解决 ,以依旧尽能够多的大模原始数据 ,并让模子建立者在后续解决中停止过滤和重新加权。这个数据集的遮盖面是史无前例的,涵盖了CommonCrawl的多个解决转储  。

通过这一行动,钻研职员为语言模子的开辟和钻研提供了更多的资源和工具,有助于矫正模子的性能和运用畛域 。

这一数据集的宣布看待AI钻研和运用畛域拥有主要意义 ,为开辟更壮大的语言模子提供了支援和前提 ,有望推进AI畛域的进一步生长。

分享到: