当前位置：首页 > 内容聚合

Together AI宣布RedPajama v2 用于大模子训练大模他们意图扩张这些注释

（）11月6日音讯:Together AI宣布了RedPajama v2，宣布训练这是用于一个蕴涵30万亿符号的数据集，旨在支援庞大语言模子的大模钻研和开辟。高质量的宣布训练数据看待这些模子的顺利至关主要，但猎取适量的用于数据集是一项庞杂的恣意，需要少量时刻、大模资源和款项。宣布训练

钻研职员从CommonCrawl和其余公然可用的用于网络数据中提取了原始文本数据，其中席卷40多个质量注释和去重集群。大模他们意图扩张这些注释，宣布训练以席卷与经常使用LLM基准的用于较为、主题建模和分类注释等实质，大模以增进更透彻的宣布训练钻研。

所在:https://together.ai/blog/redpajama-data-v2

RedPajama v2的用于数据集还通过最小解决，以依旧尽能够多的大模原始数据，并让模子建立者在后续解决中停止过滤和重新加权。这个数据集的遮盖面是史无前例的，涵盖了CommonCrawl的多个解决转储。

通过这一行动，钻研职员为语言模子的开辟和钻研提供了更多的资源和工具，有助于矫正模子的性能和运用畛域。

这一数据集的宣布看待AI钻研和运用畛域拥有主要意义，为开辟更壮大的语言模子提供了支援和前提，有望推进AI畛域的进一步生长。

相关推荐