划重心: 📌 高质量数据看待像Llama
、宣布训练Mistral、包内Falcon、据集MPT和RedPajama等最早进的用于语绽放式LLM的顺利至关主要。 📌 Together.ai的宣布训练钻研职员宣布了RedPajama-1T ,这是包内怎么查询正规出国劳务公司一个5TB的数据集 ,拥有1万亿高质量英语token ,据集而RedPajama-V2则是用于语一个30万亿token的在线数据集。 📌 这个数据集的宣布训练建立强调了对CommonCrawl的遮盖
,席卷原始数据、包内高质量注释和去重集群,据集为LLM的用于语训练提供了有力的前提。 ()11月6日 音讯:Together AI最近宣布了RedPajama v2
,宣布训练这是包内一个重大的在线数据集
,蕴涵了30万亿token,据集成为暂时公然可用的最大数据集之一
,专门用于学习型机械学习系统的训练
。 看待像Llama
、Mistral、青岛出国劳务公司哪家好Falcon 、MPT和RedPajama等最早进的绽放式LLM,高质量的数据至关主要,但由于HTML到纯文本的转换诱发的异样、一般质量较低的数据泉源以及网络实质宣传中固有的私见,这些数据未经周密解决,不顺应直接用于LLM的训练。因而 ,猎取准确的出国劳务哪家公司正规数据集和数据融合是日本劳务一项耗时 、资源雄厚且高贵的恣意。 注:图片来自项目官网 此前,Together.ai的钻研职员已经宣布了RedPajama-1T,这是一个5TB的数据集
,其中蕴涵了1万亿高质量的英语token,但他们并未止步于此
。RedPajama-V2是它的连续,建立了一个30万亿token的在线数据集 。 钻研团队以为 ,RedPajama-Data-v2将为LLM训练提供一个在线数据的遗失库,可用作提取高质量数据集的前提
,并为透彻钻研LLM训练数据提供前提。值得注重的是 ,RedPajama-V2强调了对CommonCrawl的遮盖 ,席卷84个已解决的抓取数据,而且还席卷了40多个高质量注释,这些注释是通过量个ML分类器对数据质量、minhash效果等停止的 ,可用于隐约去重或启示式支配。LLM开辟者能够运用这些注释来倏地轻盈地天生自身的自界说预训练数据集
,通过切片和挑选公然可用的数据 。 RedPajama-V2的主要中心是CommonCrawl,它是重新最先建立的,运用了84个CommonCrawl的抓取数据和其余公然可用的网络数据 。该数据集席卷原始数据(纯文本)、日本企业直聘40多个高质量注释和去重集群。为了依旧尽能够多的数据原始性 ,并让模子建立者在流水线中停止自身的挑选和重新加权,每一个CommonCrawl快照都最先通过CCNet流水线的解决。同时
,钻研职员还算计了40多个最盛行的高质量注释,以及由CCNet解决的文本文档。这些注释的主要宗旨是增进对其最佳用法的钻研 ,并使下游模子开辟者能够依据自身的规范对数据集停止挑选或重新加权。另外
,他们还指望随着社区的资助 ,逐渐增加更多的高质量信号
。 RedPajama-V2席卷了1130亿份文档,涵盖了英语、德语、法语
、西班牙语和意大利语,是通过解决84个CommonCrawl抓取数据而赢得的。纵使去重后,头部和中一面区的文档和token数目增加了60% ,但文档数目增加了71%,这注解尾部的文档一般较短 。运用Bloom过滤器对头部和中部文档停止去重后,数据集增加了约莫40%。文本文档占有了数据集的大一面实质 ,席卷高质量注释和去重集群,其结构与CCNet限定的异常相似。 钻研团队指望很快扩张他们暂时的高质量注释集
,席卷与普遍运用的LLM基准相比的污染注释 、每一个文档的主题建模和分类注释
,以及诱发社区兴致的其余注释。这一职责将为LLM畛域的钻研和运用提供更多的有力数据支援。 https://github.com/togethercomputer/RedPajama-Data